Python异常值处理与检测

缺失值处理

pandas判断缺失值一般采用 isnull()，然而生成所有数据的true、false矩阵，对于庞大的数据很难一眼看出缺失数据的位置。

缺失值查看

测试数据采用了随机生成。

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.DataFrame(np.random.randn(10,6))
>>> #生成区域随机数
>>> df.iloc[1:3,1] = np.nan
>>> df.iloc[5,3] = np.nan
>>> df.iloc[7:9,5] = np.nan
>>> df
          0         1         2         3         4         5
0 -0.524651 -0.306484  0.921319 -1.752106 -0.593152 -0.109011
1  0.350563       NaN -0.511227 -0.893392 -0.362926 -0.567714
2 -0.696586       NaN -0.387368  0.431769  0.015262 -1.002748
3  0.029329  0.645159  0.880687  0.002313  0.000143  0.410978
4  1.086453 -0.183210  0.465487  0.204141 -0.827070 -0.227329
5  0.449833  0.870347 -0.285700       NaN -0.116068 -0.061469
6  0.054838 -0.000641 -2.127298 -0.375447  0.463457  0.263546
7  2.932326 -2.227659 -0.559444  0.080580  1.731467       NaN
8  1.417988  0.083318 -0.041332  1.350390 -1.236223       NaN
9 -1.549584  0.156260  0.846521 -0.087683 -0.171236  0.334471

判断数据是否存在缺失值：isnull()

>>> #判断是否存在缺失值（矩阵中True表示此位置为缺失值、False表示非缺失值）
>>> df.isnull()
       0      1      2      3      4      5
0  False  False  False  False  False  False
1  False   True  False  False  False  False
2  False   True  False  False  False  False
3  False  False  False  False  False  False
4  False  False  False  False  False  False
5  False  False  False   True  False  False
6  False  False  False  False  False  False
7  False  False  False  False  False   True
8  False  False  False  False  False   True
9  False  False  False  False  False  False

判断哪些”列”存在缺失值：isnull().any()

>>> df.isnull().any()
0    False
1     True
2    False
3     True
4    False
5     True
dtype: bool

由此可以看出，第1、3、5列存在缺失值

只显示存在缺失值行的数据

>>> df[df.isnull().values==True]
          0         1         2         3         4         5
1  0.350563       NaN -0.511227 -0.893392 -0.362926 -0.567714
2 -0.696586       NaN -0.387368  0.431769  0.015262 -1.002748
5  0.449833  0.870347 -0.285700       NaN -0.116068 -0.061469
7  2.932326 -2.227659 -0.559444  0.080580  1.731467       NaN
8  1.417988  0.083318 -0.041332  1.350390 -1.236223       NaN

只显示存在缺失值的行列，清楚的确定缺失值的位置。

缺失数据处理

对于缺失数据一般处理方法为滤掉或者填充.

滤除缺失数据：dropna()

>>> df.dropna()
          0         1         2         3         4         5
0 -0.524651 -0.306484  0.921319 -1.752106 -0.593152 -0.109011
3  0.029329  0.645159  0.880687  0.002313  0.000143  0.410978
4  1.086453 -0.183210  0.465487  0.204141 -0.827070 -0.227329
6  0.054838 -0.000641 -2.127298 -0.375447  0.463457  0.263546
9 -1.549584  0.156260  0.846521 -0.087683 -0.171236  0.334471

以上只显示了非缺失数据。

当只选择行里的数据全部为空时才丢弃时，可向dropna()传入参数how='all'，如果想以同样的方式按列丢弃，可以传入axis=1；

填充缺失数据：fillna()

如果不想丢掉缺失的数据而是想用默认值填充这些缺失值，可以使用fillna()函数，如果不想只以某个标量填充，可以传入一个字典如（fillna({})），对不同的列填充不同的值，

缺失值较多的特征处理

# 定义工资改变特征缺失值处理函数，将有变化设为Yes，缺失设为No 
def set_salary_change(df):
    df.loc[(df.salary_change.notnull()), 'salary_change'] = 'Yes'
    df.loc[(df.salary_change.isnull(df)), 'salary_change'] = 'No'
    print df 
    pd.df()print df
    return df
data_train = set_salary_change(df)

缺失值较少的特征处理

把NaN直接作为一个特征，假设用0表示，实现如下：

df.fillna(0)

用均值填充

# 将所有行用各自的均值填充 
data_train.fillna(data_train.mean())  
# 也可以指定某些行进行填充
data_train.fillna(data_train.mean()['browse_his', 'card_num'])

用上下数据进行填充

# 用前一个数据代替NaN：method='pad'
data_train.fillna(method='pad')  
# 与pad相反，bfill表示用后一个数据代替NaN 
data_train.fillna(method='bfill')

用插值法填充

# 插值法就是通过两点（x0，y0），（x1，y1）估计中间点的值 
data_train.interpolate()

用算法拟合进行填充

# 定义browse_his缺失值预测填充函数
def set_missing_browse_his(df):
    # 把已有的数值型特征取出来输入到RandomForestRegressor中
    process_df = df[['browse_his', 'gender', 'job', 'edu', 'marriage', 'family_type']]
    # 乘客分成已知该特征和未知该特征两部分
    known = process_df[process_df.browse_his.notnull()].as_matrix()
    unknown = process_df[process_df.browse_his.isnull()].as_matrix()
    # X为特征属性值
    X = known[:, 1:]
    # y为结果标签值
    y = known[:, 0]
    # fit到RandomForestRegressor之中
    rfr = RandomForestRegressor(random_state=0, n_estimators=2000,  n_jobs=-1)
    rfr.fit(X,y)
    # 用得到的模型进行未知特征值预测
    predicted = rfr.predict(unknown[:, 1::])
    # 用得到的预测结果填补原缺失数据
    df.loc[(df.browse_his.isnull()), 'browse_his'] = predicted
    return df, rfr
    
data_train, rfr = set_missing_browse_his(data_train)

当然，针对我们这里的数据，我们对那些缺失值不是很大的特征都采用方式5来填补其缺失值。即使用随机森林算法，利用数据表中某些没有缺失的特征属性来预测某特征属性的缺失值。将填补后的数据表保存。

最后编辑于：2017.12.08 11:06:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,425评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,058评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,186评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,848评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,249评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,554评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,830评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,536评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,239评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,505评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,004评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,346评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,999评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,060评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,821评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,574评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,480评论 2赞 267

Python异常值处理与检测

缺失值处理

缺失值查看

缺失数据处理

推荐阅读更多精彩内容