sklearn学习 — 数据降维

数据降维

降维:特征的数量

  1. 特征选择
  2. 主成分分析

特征选择

  • 冗余:部分特征的相关的高,容易消耗计算性能
  • 噪声:部分特征对于预测结果有影响
  • filter(过滤式)、embedded(嵌入式)、warpper(包裹式)
  • Variance threshold :方差选择法 >>> filter
    • sklearn.feature_selection.VarianceThreshold
      • VarianceThreshold(thershold=0.0)
        • 删除所有低方差特征
        • Variance.fit_transform(X)
        • X : numpy array格式的数据[n_samples,n_feature]
        • 返回值:训练集差异低于方差特征的将被删除
        • 默认值是保留所有非零的方差特征,即删除所有样本中具有相同值的特征
        • 例[[0,2,0,3],[0,1,4,3],[0,1,1,3]]
  • 主成分分析:decomposition PCA
    • 本质:是一种分析,简化数据集的技术
    • 目的:是数据维数压缩,尽可能降低原数据的维数(复杂度),损失少量信息
    • 作用:可以削弱回归分析或聚类分析特征的数量
    • 数据量过大时使用
    • 把损失减少到最小
    • 语法
    • from sklearn.decomposition import PCA
      • PCA(n_components=None)
      • 将数据分解为较低难度空间
      • PCA.fit_transform(X)
        • X:numpy array格式的数据[n_samples,n_frature]
        • 返回值:指定维度的array
      • 初始化PCA,指定减少后的维度
      • 调用fit_transform
      • 例[[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    • n_components
      • 小数:90%~95%之间 -保留90%数据
      • 整数:较少到的特征数量

推荐阅读更多精彩内容