手把手教你完成一个数据科学小项目(3):数据异常与清洗

前言

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。

请先阅读“中国年轻人正带领国家走向危机”,这锅背是不背? 一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。

截止目前,我们已经通过(1)数据爬取(2)数据提取、IP查询,分别完成了对新浪财经《中国年轻人正带领国家走向危机》一文评论数据的爬取和数据的提取。如何你没看前两个教程、也没有一步步运行和理解之前的代码,“不要慌”,直接拿Sina_Finance_Comments_All_20180811.csv 数据进行分析、挖掘和可视化就行。

数据读取

本文继续用 Python 的 pandas 等数据科学库完成所有操作。首先读取数据,每一行代表一条评论,每一列代表每一条评论里的某一维度数据。很多列最后也没用上,但最开始并不知道,所以先都读取进来,不做筛选。

import pandas as pd
df = pd.read_csv('Sina_Finance_Comments_All_20180811.csv',encoding='utf-8')
df.head()

评论数

首先来看下所有评论数随时间的变化情况。

创建时间戳列

由日期列创建出对应的时间戳列。

from datetime import datetime
def time2stamp(cmnttime):
    cmnttime = datetime.strptime(cmnttime, '%Y-%m-%d %H:%M:%S') 
    stamp = int(datetime.timestamp(cmnttime))
    return stamp
df['stamp'] = df['time'].apply(time2stamp)
df.head()

DataFrame 的 shape 代表行数(爬到的评论总数)与列数:

df.shape
(3795, 19)

创建评论数计数列

根据评论时间的前后,创建评论数计数列,即最早一条评论记为1,后续递增,最后一条也就是评论总数。

import matplotlib.pyplot as plt
%matplotlib inline
df['cmntcount'] =int(df.shape[0])-df['No']
df['cmntcount'].head()

计数顺序和索引顺序正好相反:

0    3794
1    3793
2    3792
3    3791
4    3790
Name: cmntcount, dtype: int64

数据异常

评论数随时间戳的变化曲线有异常,一开始没太在意那一水平线是什么情况所致,也不知道哪里出的有问题,所以就先忽略了,继续后续的探索分析:

plt.plot(df.stamp, df.cmntcount);

pyecharts 之评论数变化曲线

本项目将多次使用 pyecharts 进行数据可视化。大家也可以自行安装 pip install pyecharts ,并按照官方文档:pyecharts 图表配置 进行学习和使用。

具体支持的图表罗列如下:

  • Bar(柱状图/条形图)/ Bar3D(3D 柱状图)/ Boxplot(箱形图)/ EffectScatter(带有涟漪特效动画的散点图)/ Funnel(漏斗图)
  • Gauge(仪表盘)/ Geo(地理坐标系)/ Graph(关系图)/ HeatMap(热力图)/ Kline(K线图)/ Line(折线/面积图)/ Line3D(3D 折线图)
  • Liquid(水球图)/ Map(地图)/ Parallel(平行坐标系)/ Pie(饼图)/ Polar(极坐标系)/ Radar(雷达图)/ Sankey(桑基图)
  • Scatter(散点图)/ Scatter3D(3D 散点图)/ ThemeRiver(主题河流图)/ WordCloud(词云图)

注:开源后的 jupyter notebook里 pyecharts 图表部分无法显示,需 download 后运行代码过才可查看。

每小时评论数组合图

由于本文为了引出数据中存在异常,所以跳过 notebook 里的折线图和柱形图单图,直接拿最后的组合图(pyecharts 配置文档 overlap)进行说明。

截取时间列拿到月份日期和小时,并根据每小时进行分组统计:

from pyecharts import Bar, Line, Overlap
df['time_mdh'] = df.time.apply(lambda x:x.split(':')[0][5:])
df_mdhmax = df.groupby('time_mdh')['cmntcount'].max()
df_mdhcount = df.groupby('time_mdh')['cmntcount'].count()
from pyecharts import Bar, Line, Overlap
bar = Bar("每小时评论数")
bar.add("小时", df_mdhcount.index, df_mdhcount.values,is_label_show=True,xaxis_interval=-90,
        xaxis_rotate=-90, yaxis_interval=200,yaxis_max=800)
line = Line("每小时评论数")
line.add("小时", df_mdhmax.index, df_mdhmax.values,line_opacity=1,
         line_type='dotted', yaxis_interval=1000,yaxis_max=4000)

overlap = Overlap()
overlap.add(bar)
overlap.add(line, is_add_yaxis=True, yaxis_index=1)
#overlap.render() # 使用 render() 渲染生成 .html 文件
overlap

可以看到组合图里,柱形图似乎没什么问题,最早的评论出现在8月7号的晚上8点,最大的高峰出现在在8月8号上午9点,单小时评论数高达659条,之后逐渐衰减;



而曲线图里8月9号上午8点至9点两个时间点的累积评论数超过了相邻的前后时间段。凸起的部分不得不令人怀疑之前拿到的数据是有问题的,难道千辛万苦用爬虫拿到的数据出了幺蛾子?!

异常检测

不过既然知道了异常可能就在2018-08-09 8点-9点,那就选择这俩时间点的数据进行下排查下,一行代码就行:

df[df.time_mdh.str.contains('08-09 08')]

发生评论数据有重复,并且在表格中的数据并没有如设想的那样按照时间先后排列。


df[df.time_mdh.str.contains('08-09 09')]

9点的评论同样有重复,不方便显示就不放了。一开始也不清楚该问题为什么会发生,感觉爬虫部分没有问题,提取数据也中规中矩,后来重新爬取数据时发现,页码数在总页数的前几页就停止了。

至于重复是如何产生的,也是未解之谜,有知道的小小伙伴可以留言告诉我哈。

不过虽然不知道异常究竟如何产生的,但去除异常数据的方式却可由去重并重新设置下 index 索引和重设评论数计数列等实现。

数据清洗

由于本文一开始的数据就存在异常,所以“一朝回到解放前”,让我们重新读取数据,一切从头开始,首先就是删除掉重复的行:


将用户昵称和评论内容均一致的行删除重复,输出前后 shape 的变化后:

df = pd.read_csv('Sina_Finance_Comments_All_20180811.csv',encoding='utf-8')
print(df.shape)
df.drop_duplicates(subset=['nick', 'content'], keep='first',inplace=True)
print(df.shape)

共删除22行:

(3795, 22)
(3773, 22)

创建新的时间列

from datetime import datetime
def time2stamp(cmnttime):
    cmnttime = datetime.strptime(cmnttime, '%Y-%m-%d %H:%M:%S') 
    stamp = int(datetime.timestamp(cmnttime))
    return stamp
df['stamp'] = df['time'].apply(time2stamp)
df['time_ymd'] = df.time.apply(lambda x:x.split(' ')[0]) # 年月日
df['time_mdh'] = df.time.apply(lambda x:x.split(':')[0][5:]) #月日时 # 方便后续可视化时横坐标展示
df.head()

按时间排序后重置 index 索引
pandas.DataFrame.sort_values
pandas.DataFrame.reset_index

df.sort_values(by=["stamp"],ascending=False,inplace=True)
df.reset_index(inplace=True,drop=True)

创建评论数计数列后,将数据存储到新的csv里,后续就可以只在新csv里操作,而不必每次重新清洗数据了:

import matplotlib.pyplot as plt
%matplotlib inline
df['cmntcount'] =int(df.shape[0])-df.index
df.to_csv('Sina_Finance_Comments_All_20180811_Cleaned.csv', encoding='utf-8', line_terminator='\r\n')

最后组合图的评论数变化情况也正常了。


小结

本次遇到数据里出现异常也是始料不及,想当然的设想数据格式准确并去进行分析和可视化的结果就是一顿操作后,发现不得不掉头解决掉异常,于是很多努力“一朝回到解放前”,但这可能就是人生吧,那有什么一帆风顺,人生不就是起落落落落落落落落落嘛!逃。

本系列将全面涉及本项目从爬虫、数据提取与准备、数据异常发现与清洗、分析与可视化等细节,并将代码统一开源在GitHub:DesertsX/gulius-projects ,感兴趣的朋友可以先行 star 哈。

本系列文章:
“中国年轻人正带领国家走向危机”,这锅背是不背?
手把手教你完成一个数据科学小项目(1):数据爬取
手把手教你完成一个数据科学小项目(2):数据提取、IP 查询

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容