sklearn学习 — 数据集

sklearn数据集

1. 数据集的划分

  1. 训练集 : (占数据集比重高) 用于训练,构建模型
  2. 测试集 : 在模型评估时使用,检验评估模型是否有效
训练集 测试集
建立模型 评估模型
75%~ ~25%

sklearn数据集划分api :sklearm.model_selection_train_test_split
* sklearm.model_selection_train_test_split(arrays,*option)
* x:数据集的特征值
* y:数据集的标签值
* test_size :测试集的大小,一般为float
* random_stata :随机数种子
* return :训练集特征值,测试集测试值,训练集标签,测试值标签(默认随机)

from sklearn.model_selection import train_test_split
li = load_iris()
'''x_train , y_train , x_test , y_test'''
x_train , y_train , x_test , y_test = train_test_split(li.data,li.target,test_size=0.25)
print("训练集的特征值和目标值:",x_train,y_train)
print("训练集的特征值和目标值:",x_test,y_test)    
  • sklearn.datasets
  • 加载获取流行数据集
    • datasets.load_*()
    • 获取小规模数据集,数据包含在datasets里
    • datasets.fatch_*(data_home=None)
    • 获取大规模数据集,从网上下载
    • 返回的数据类型是字典格式
      • data : 特征数据数组,是[n_samples,n_feature]的二维np.ndarray数组
      • target:标签数组,是n_samples的一维np.ndarry数组
      • DESCR:数据描述
      • feature_names:特征名,新闻数据,手写数据,回归数据集...没有
      • target_names:标签名
from sklearn.datasets import load_iris
li = load_iris()
print(li.target)

推荐阅读更多精彩内容