Python|泰坦尼克号幸存者画像

01 幸存者

泰坦尼克号的沉没,是人为的悲剧,1800人罹难者近70%,让我们一起来看看泰坦尼克号的幸存者都有哪些特征吧。

先给出分析框架

  1. 一切的分析都建立在数据清洗之后
  2. 幸存率的分析非常重要,下面将按性别、年龄、仓位、登船码头4个维度分别观察与幸存率的关系
  3. 然后按照仓位+性别、仓位+年龄段、年龄段+性别3个二维组合维度观察与幸存率的关系
  4. 最后按仓位+性别+年龄段这个三维组合维度观察与幸存率关系

想知道在泰坦尼克号事故中活下来的人的特征么?

一起来看看吧。

02 数据清洗

一切分析的前提,都是干净可靠的数据,所以我们先来观察一下数据情况,进行数据清洗。

查看数据三步走

  1. 数据大小 df.shape
  2. 字段类型及缺失值
  3. 数据头尾行

使用df.shape查看数据大小,使用df.info()查看数据字段类型和缺失值情况。

  • 891行,12列,占据空间84kB
  • Age字段有20%的缺失,年龄是乘客的重要参数,后续会补全
  • Cabin字段有70%的缺失,船舱号码不是重要参数,考虑暂不分析该字段

df.head(), df.tail()查看数据头尾行情况

各字段解释如下:

  • PassengerId: 乘客的id
  • Survival: 是否幸存 0 = No, 1 = Yes
  • Pclass: 舱位 class 1 = 1st, 2 = 2nd, 3 = 3rd
  • Name: 姓名
  • Sex: 性别
  • Age: 年龄
  • SibSp: 船上兄弟姐妹以及配偶的个数
  • Parch: 船上父母以及子女的个数
  • Ticket: 船票号码
  • Fare: 票价
  • Cabin: 船舱号码
  • Embarked: 登船码头 C = Cherbourg, Q = Queenstown, S = Southampton

补全缺失值

Age字段是乘客的重要参数,需要补全。

可不能直接填充0,或者某个数去补全整个数据哦,这样做很危险,数据源会失去客观性!

那怎么办呢?考虑到不同性别的年龄层不同,不同仓位(可以理解为社会等级)的年龄层也不同,我们可以这样做:

以性别+仓位将数据分组,用每组的中位数去补全各组的空值

#读取原始数据
titanic=pd.read_csv(r'D:\DataScience\python\python_course\titanic.csv',sep=';')

# 分组计算不同仓位、性别的年龄中位数,得到一个Series数据,索引为Pclass、Sex
age_median3=titanic.groupby(["Pclass","Sex"]).Age.median()
titanic.set_index(["Pclass","Sex"],inplace=True)

# 使用fillna补全空值,将根据索引进行补全
titanic.Age.fillna(age_median3,inplace=True)
titanic.reset_index(inplace=True)

titanic.Age.describe()

这样一波操作之后,Age字段有891个非空值,已经被补全。

03 数据挖掘

现在我们已经得到一分干净的数据集了,可以开动啦!

是什么因素影响了乘客的幸存率呢?

3.1 按性别、年龄段、仓位、登船码头4个维度分别观察与幸存率的关系
  • 仓位-幸存率
# 数据透视表
titanic.pivot_table(values="Survived",index="Pclass",aggfunc="mean")

#可视化呈现
sns.barplot(data=titanic,x="Pclass",y="Survived",ci=None)

果然,仓位等级越高,幸存率也越大,可能是由于高等仓位更远离水面,乘客也更少,有更多的逃生机会吧。

  • 性别-幸存率
titanic.pivot_table(values="Survived",index="Sex",aggfunc="mean")

sns.barplot(data=titanic,x="Sex",y="Survived",ci=None)

女性幸存率明显高于男性,绅士风度在死亡面前依然存在,让人感动。

  • 年龄段-幸存率

Age字段是一个连续变量而不是分类变量,我们需要将Age字段离散化之后再进行分析。

# 连续变量离散化:将某个变量的所在区间分割为几个小区间,落在同一个区间的观测值用同一个符号表示
titanic["Ageband"]=pd.cut(titanic["Age"],5)

现在我们给titanic这个dataframe新增了一列“Ageband”,它代表Age字段所在的年龄段

# 可视化
sns.barplot(data=titanic,x="Ageband",y="Survived",ci=None)
plt.xticks(rotation=60)

低年龄段生存率最高,64岁以上老人生存率最低,青壮年次之,看来大家还是很有爱的——小朋友先救,青壮年让位,老人可能体力不支或自动放弃。

  • 登船码头-幸存率
# 用groupby也可实现数据透视表
titanic[["Embarked","Survived"]].groupby("Embarked").mean()

sns.barplot(data=titanic,x="Embarked",y="Survived",ci=None)

C码头登船的幸存率最高,为什么呢?我们来看看各码头登船乘客的仓位情况

# 数据透视表
titanic.pivot_table(values="Name",index="Pclass",columns="Embarked",aggfunc="count")
  • S码头登船人数最多,大部分是3等仓位
  • Q码头登船的人90%以上是3等仓位
  • C码头登船的人半数是1等仓位,数据来看1等仓位的幸存率较高,因此C码头登船的人幸存率较高可解释
  • 看来C码头主要是有钱人登船,S码头就主要是穷人了
3.2 按照仓位+性别、仓位+年龄段、年龄段+性别观察与幸存率的关系
  • 仓位+性别-幸存率
# 数据透视表走起,以数字形式观察结果
titanic.pivot_table(values="Survived",index="Pclass",columns="Sex",aggfunc="mean")

# seaborn作图走起,以图像形式观察结果
sns.barplot(data=titanic,x="Pclass",y="Survived",hue="Sex",ci=None)

男性幸存率普遍低于女性,这难道是传说中的绅士风度在起作用?

高等仓位幸存率高于低等仓位,一方面可能是因为高等仓位在上层,淹水较慢,逃生时间够长,另一方面可能是人为因素,高等仓位更受照顾;

一二等仓的女性幸存率很高啊,二三等仓的男性幸存率极低。

  • 仓位+年龄段-幸存率
sns.pointplot(data=titanic,x="Ageband",y="Survived",hue="Pclass",ci=None)
plt.xticks(rotation=60)

各年龄段1等仓位的生存率最高,3等仓位生存率最低;

低年龄段的生存率逐次高于高年龄段;

在考虑各分组生存率的同时,要考虑各分组人数,比如该分组并没有人,那么生存率自然是0,但我们并不能说该分组生存率最低。

  • 性别+年龄段-幸存率
titanic.pivot_table(values="Survived",index="Ageband",columns="Sex",aggfunc="mean")

sns.barplot(data=titanic,x="Ageband",y="Survived",hue="Sex",ci=None)

# 设置横轴标签位置
plt.xticks(rotation=60)

男性生存率明显偏低与女性,女性高年龄段的生存率逐次高于低年龄段的。

3.3 三维分析

前面的分析从一维、二维角度分析了因素与幸存率的关系,下面我们直接从三维因素来分析。

  • 年龄段+性别+仓位
titanic.pivot_table(values="Survived",index="Ageband",columns=["Sex","Pclass"],aggfunc="mean")

输出结果展示了各年龄段下,各性别分别在123等仓位的幸存率。这张表各可能会让你晕晕的,那么我们就可视化呈现吧。

"""各性别下,仓位+年龄段与幸存率关系"""

# aspect设置画布长宽比
# palette设置hue分组的颜色
sns.FacetGrid(data=titanic,row="Sex",aspect=1.5)\
.map(sns.pointplot,"Ageband","Survived","Pclass",palette="deep",ci=None)\
.add_legend()

plt.xticks(rotation=60)

男性低年龄段幸存率最高,高等仓位幸存率更高;

中老年女性幸存率最高,1、2等仓位的女性幸存率几乎达到100%,3等仓位女性比较惨一点。

  • 仓位+登船码头+性别
# 直接可视化呈现吧
sns.FacetGrid(data=titanic,col="Pclass",row="Embarked")\
.map(sns.barplot,"Pclass","Survived","Sex",hue_order=["male","female"],palette="deep",ci=None)\
.add_legend()

不论从登船码头还是仓位来看,女性幸存率普遍高于男性;

按性别来看,高等仓位幸存率高于低等仓位;

Q码头登船的男乘客生存率最低,我们来看看是不是Q码头男乘客数量较少?

titanic.pivot_table(values="Survived",index="Embarked",columns="Sex",aggfunc="count")

Q码头登船男乘客多于女乘客,但几乎都罹难了,为什么呢?我们来看看男乘客的仓位、年龄段分布情况,是不是这些情况导致了男乘客生存率较低.

titanic.pivot_table(values="Survived",index=["Embarked","Pclass"],columns=["Sex","Ageband"],aggfunc="count")

Q码头登船的男乘客,绝大部分处于16-32岁,3等仓位,这个分段的乘客幸存率是最低的,解释了为什么Q码头登船的男乘客幸存率趋于0的现象。

04 预告

本次针对泰坦尼克号乘客数据,我们分析了幸存者的特征画像:

女性,儿童,头等舱,绅士风度

本次未对数据的直系、旁系亲属个数进行分析,下期考虑加入。

本次主要使用了数据透视表和seaborn包绘图呈现结果,下期考虑加入特征工程对数据进一步分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容