数据分析(三):《数据挖掘R语言实战》

第2章 数据概览

2.2 数据分类

2.2.1 一般的数据分类
  • 定量数据(Quantitative Data):一般指的是数值型数据
    • 连续型数据(Continuous Data)
      • 身高是连续性数据
    • 离散型数据(Discrete Data)
      • 年龄一般认为是离散型数据
    • 在数据区间极大的情况下,连续和离散数据就没有区别的必要了。
  • 定性数据(Qualitative Data)
    • 定类数据
    • 定序数据
    • 定距数据
    • 定比数据
    • 四种定性数据的可进行的运算如下:
四种定性数据的可进行的运算
2.2.2 R的数据分类
  • 数值型
    • 数值型定量数据
  • 整数型
    • 数值型定量数据
  • 逻辑型
    • TRUE或FALSE,定性数据。
  • 字符型
    • 向量中每一个元素都是一个字符或字符串,是定性数据。
  • 因子型
    • 以数字代码形式表现的字符型数据,定性数据。
因子型数据
2.2.2 用R简单处理数据
  • head()
  • tail()
  • class() 变量类型
  • levels() 查看因子型数据的水平值
  • is.character() 是否是字符型数值
  • is.number() 是否是数值型数据

2.3 数据抽样以及R实现

  • 简单随机抽样
>sample(x, n, replace=T)
  • 分层抽样
>strata()      #分层抽样
>getdata()     #获取分层抽样所得的数据集
分层抽样的函数strata()
  • 整体抽样
>cluster()      #整体抽样
整体抽样函数cluster()

2.4 训练集和测试集

  • 训练集(Training Dataset)
    • 用于建立模型
  • 测试集(Testing Dataset)
    • 用于评价模型
模型训练和模型评价过程

第3章 用R获取数据

3.1 R的内置数据集

3.1.1 datasets数据集

在R中,数据集是分属于各个软件包的,比较特殊的是datasets包,它是专用于提供数据集的。

> data(package = "datasets")      #查看datasets内的所有数据集
> ?CO2    #查看CO2数据集的帮助文档
3.1.2 包的数据集

除datasets外,其它软件包也含有少量数据。

> data(package = .packages(all.available = TRUE))    #查看本地所有软件包的数据集

3.2 获取其他格式的数据

3.2.1 CSV和TXT格式
3.2.2 从Excel获取数据
3.2.3 从其它软件获得数据

3.3 获取数据库数据

3.4 获取网页数据

使用XML软件包

第4章 探索性数据分析

4.1 数据集

4.2 数字化探索

为什么要探究数据?
了解数据的大致分布、选择合适的模型。

4.2.1 变量概况

常用的函数用来获取数据集基本信息

函数名 软件包 功能描述
attributes() base 给出数据集的属性列表(Attributes List),具体包括变量名($names)、数据集格式($class)、行名($raw.names)三部分,由此得到对数据集的整体把握
str base 在attributes()基础上查看数据集的内部结构,输出观察样本数、变量数、各变量的类型和取值情况
summary() base 给出各变量的统计性指标,(对定性变量)各水平的取值频数,(对于定量型数据)最小值、均值等等
4.2.2 变量详情

常用的函数用来获取数据集基本信息

函数名 软件包 功能描述
describe() Hmisc 同summary()一样,对于不同类型的变量给出不同类型内容;取值水平小于10个的数值型变量,被默认为离散型变量;还可以给出频数表(对于非二分变量,且取值水平小于20),或者(取值水平超过20)最低最高的5个值。
basicStats() fBasics 服务于金融工程
4.2.3
  • 分布:数据集中某变量各水平的取值情况
    • 离散变量
      • 二项式分布
      • 泊松分布
      • 几何分布
    • 连续数据
      • 均匀分布
      • 指数分布
      • 正态分布
概念 功能描述
偏度(skewness) 用于衡量数据的偏倚程度,也就是对称度;以正态分布为基准,即正态分布的偏度为0,完全对称分布;该值的取值区间为[-1, 1],说明数据对称性较强;绝对值大于1,说明有偏倚现象,而且正值右偏、负值左偏。
峰度(kurtosis) 描述数据的陡峭程度(或集中和分散程度);同样是以正态分布为标准(峰度为0);取值大于0,说明是陡峭、尖峰峰度;取值小于0,平缓、平峰峰度。峰度绝对值越大,说明可能存在异常值。
4.2.4 稀疏性

稀疏性:对于高维数据而言,数据集中变量个数很多,而只有少部分变量有值。

稀疏矩阵包Matrix

4.2.5 缺失值

软件包mice多用于多重查补技术,md.pattern()用于获取缺失值的情况

4.2.6 相关性
  • 相关系数
    • 软件包rattle、函数cor()
    • 取值 -1~+1之间

4.3 可视化探索

4.3.1 直方图

4.3.2 累积分布图

4.3.3 箱线图

4.3.4 条形图

4.3.5 点阵图

4.3.6 饼图

第5章 数据预处理

推荐阅读更多精彩内容