第三课.特征工程

1. 前言

特征 = 数据中抽取出来对结果预测有用的信息

2. 数据与特征处理

2.1 数据采集

Paste_Image.png

2.2 数据格式化

Paste_Image.png

2.3 数据清洗

Paste_Image.png

2.4 数据清洗实例

Paste_Image.png

2.5 数据采样

Paste_Image.png

2.6 正负样本不均衡

Paste_Image.png

2.7 特征处理

Paste_Image.png

2.7.1 数值型

Paste_Image.png
Paste_Image.png
Paste_Image.png
Paste_Image.png

2.7.2 类别型

2.7.2.1.png

one-hot 解决了均等性

2.7.2.2.png
2.7.2.3.png
2.7.2.4.png

bucket代表不同的主题

2.7.2.5.png

性别和爱好的交叉关系

2.7.3 时间型

2.7.3.1
2.7.3.2
2.7.3.3

2.7.4 文本型

2.7.4.1.png
2.7.4.2

n-gram 把几个词组合在一起

2.7.4.3

word2vec

2.7.5 统计特征

2.7.5.1
2.7.5.2
2.7.5.3

2.7.6 组合特征

2.7.6.1
GBDT

3.特征的处理

3.1 特征的选择

3.1.1

3.2 特征选择的方式

过滤型
过滤型python包

包裹型
包裹型python包
嵌入型
嵌入型python包

3.模型选择

模型选择

推荐阅读更多精彩内容