实战项目

终于可以学以致用

现在急需解决一个问题,怎样读入非utf-8编码的csv文件

测试发现要读的数据编码格式为'cp936',在read_csv中传入参数encoding='cp936'即可

另外,头文件有注释信息,传入skiprows=range(8)#一共有8行注释

time_data = pd.read_csv('d:/works/baidu_data/2017_april/time_summary.csv', skiprows=range(7), encoding='cp936')

指定索引列是time_data.set_index(['日期','小时']) #注意是列表格式

grouped = time_data['展现'].groupby(time_data['日期']) #对DataFrame进行聚类处理

time_data.groupby(['小时'])['展现','点击'].sum() #这里是简便写法,表示以小时为聚类,展现点击为统计项

grouped.sum() #得到各日期求和项Series对象

对于这个Series,直接grouped.sum().plot(),即可生成折线图

推荐阅读更多精彩内容