lesson1-绘制直方图-乘客数据

(一) 绘制直方图

import numpy from pandas import read_csv import matplotlib import matplotlib.pyplot as pet

#设置字体 font={'family':'SimHei'} matplotlib.rc('font',**font)

#读取文件# data = read_csv('lesson1/AirPassengers.csv',encoding='UTF-8')
#查看数据类型 data.dtypes

#基本统计 data.NumPassengers.mean() #280.29861111111109 data.NumPassengers.var() #14391.917200854699 data.NumPassengers.std() #119.96631694294319 data.NumPassengers.describe()

#直方图 plt.hist(data.NumPassengers,20)

观察:
讲真,这个直方图看的很困惑,并不觉得能解释什么。因为原始数据中其实有三个变量:月份,不知道是什么意思的49-60(姑且称为 xFactor),乘客数量。

所以,尝试采用分组统计,看是否有意思的发现。

(二)分组统计尝试一,以xFactor分组

#拆分原数据 newData = data['Month'].str.split('-' ,1,True)#拆分month列 newData.columns = ['Month','xFactor']#命名 newData['NumPassengers'] = data['NumPassengers']#补上最后一列

拆分后的数据框.png

#根据xFactor分组 result1 = newData.groupby(by=['xFactor'])['NumPassengers'].agg({ numpy.sum, numpy.mean })

按xFactor分组统计.png
画折线图

(注:因为分组时49-60这一列被默认称为index,尝试reset_index失败——只在console里重置成功,数据框并未更新,所以人为加上了一列xFactor。之后找到合适办法再改回来)

result1['xFactor']=[49,50,51,52,53,54,55,56,57,58,59,60]#增加分组列
#result1 画折线图 plt.plot(result1['xFactor'],result1['sum'],'-') plt.plot(result1['xFactor'],result1['mean'],'--',color='red')

从折线图可以看出 [年总乘客数]和 [平均乘客数据]随xFactor的变化,从49-60稳步上升。
据乍一看,还以为均值的变化趋势不明显呢,其实是因为Y轴数据量的差别。
尝试分开作图:


这样就可以看出,其实两个的变化趋势幅度是一样的。
(还可以尝试将两组数据标准化,按比例列缩放,绘制在同一个图上。还不会具体操作,稍后实验)

猜想:xFactor的真实身份

会不会是一个航空公司的不同分公司的数据?如果是,那60,59,58……这些分公司贡献的客户量可比49,50……多很多。
一个航空公司的不同航线?同理,60航线贡献最大。

(二)分组统计尝试一,以月份分组

`#根据月份分组
result2 = newData.groupby(by=['Month'])['NumPassengers'].agg({
numpy.sum,
numpy.mean

                           })`
按月份分组统计.png

#根据月份分组 result2 = newData.groupby(by=['Month'])['NumPassengers'].agg({ numpy.sum, numpy.mean })

result2['月份']=[4,8,12,2,1,7,6,3,5,11,10,9] result2.sort(columns='月份')

同上index无法重置的原因,该折线图暂时画不出来/,姑且先看数据。
可以看出:
乘客数最多:七月 4216
乘客数最少:十一月2794
其中,六、七、八、九月份的乘客数量明显高于其他月份。可能的一个原因是因为人们喜欢在夏季旅游胜过冬季。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容