泰坦尼克号生还率分析

泰坦尼克号生还率分析

数据来源 kaggle 数据集 → 共有 1309 名乘客数据,其中 891 是已知存活情况(train.csv)

剩下 418 则是需要进行分析预测的(test.csv)

字段意义:

  • PassengerID:乘客编号
  • Survived:存活情况(存活:1;死亡:0)
  • Pclass:客舱等级
  • Name:乘客姓名
  • Sex:性别
  • Age:年龄
  • SibSp:同乘的兄弟姐妹/配偶数
  • Parch:同乘的父母/小孩数
  • Ticket:船票编号
  • Fare:船票价格
  • Cabin:客舱号
泰坦尼号克生还率分析

目的:

通过已知获救数据,预测乘客生存情况

1、整体来看,存活比例如何?

分析思路:

  1. 读取已知生存数据 train.csv
  2. 查看已知存活数据中,存活比例如何?

提示:

  1. 注意过程中筛选掉缺失值之后再分析
  2. 这里用 seaborn 制图辅助研究

存活比例为 38.38%

整体存活比例

2、结合性别和年龄数据,分析幸存下来的人是那些人?

分析思路:

  1. 年龄数据的分布情况
  2. 男性和女性存活情况
  3. 老人和小孩存活情况

我们用柱形图和箱线图查看具体年龄数据分布情况。

年龄数据的分布情况

由柱形图和箱线图可得知,样本年龄数据分布在 18 - 30岁之间的人数比较多,同时小孩特别多,老人比较少。

总体年龄分布:去掉缺失值后样本有 714,平均年龄为 30岁,标准差 14岁,最小年龄 0.42,最大年龄 80

描述统计

通过描述统计可得出,总体年龄分布:去掉缺失值后样本有 714,平均年龄为 30岁,标准差 14岁,最小年龄 0.42,最大年龄 80。

接下来我们对整个数据按性别进行分组,查看性别对生存率的影响。

男性和女性具体存活情况
男性和女性存活情况

通过计算可得知,女性存活率74.20%,男性存活率18.89%,女性存活率明显高于男性。

接下来,我们再按照船舱等级分组,进行分析,看看船舱等级对生还率的影响。

船舱等级对生还率的影响

按船舱等级和年龄划分(看蓝色部分存活者),一等船舱集中分布在 20 - 40岁,二等和三等不仅仅年龄分布在 20 - 40岁,还有许多低龄存活者;

按船舱等级和性别划分(看蓝色部分存活者),两者均有较低年龄的存活者,总体来说这次对女性和低龄人士,都有一定的照顾,存活率都比较高。

接下来按年龄划分绘制柱状图,看看每个年龄段的存活情况。

老人与小孩存活情况

由图可知,灾难中,老人和小孩存活率较高,中间人数最多(年龄分布可以看出),存活率却比较低。

综上所诉,按年龄划分,老人和小孩的存活率较高;按性别划分,女性的存活率较高。

3、结合 SibSp、Parch 字段,研究亲人多少与存活的关系

分析思路:

  1. 有无兄弟姐妹/父母子女和存活与否的关系
  2. 亲戚多少与存活与否的关系
有无兄弟姐妹/父母子女和存活与否的关系

由上图所知,有兄弟姐妹、父母子女的生存率更大

亲戚多少与存活与否的关系1
亲戚多少与存活与否的关系2

综上所示,独自一人的生存率较低,随着亲戚数量增加,生存率逐渐增加,超过 4 名后,生存率下降。

4、结合船票的费用情况,研究票价和存活与否的关系

分析思路:

  1. 票价分布和存活与否的关系
  2. 比较研究生还者和未生还者的票价情况
票价分布和存活与否的关系

由上图所示,总体来说,票务价格比较平均,20英镑 一张,一等舱票价较高,平均 60 英镑,二等舱和三等舱票价都是在 25 英镑以下;人数集中在二三等舱,一等舱人数较少。

比较研究生还者和未生还者的票价情况

总体来看,生还者票价高于未生还者票价,一等舱存活率较高一点,二等舱和三等舱基数大,存活率不高。

接下来我们基于上述的特征,利用 KNN 分类模型,对结果进行预测。

5、利用 KNN 分类模型,对结果进行预测

分析思路:

  1. 模型训练字段:'Surivied','Pclass','Sex','Age','Fare','family_Size'
  2. 模型预测 test.csv 样本数据的生还率

提示:

  1. 训练数据集中,性别改为数字表示 → 1 代表男,0 代表女性
#去掉缺失值
knn_train = train_data[['Survived','Pclass','Sex','Age','Fare','family_size']].dropna()

knn_train['Sex'][knn_train['Sex'] == 'male'] = 1
knn_train['Sex'][knn_train['Sex'] == 'female'] = 0

test_data['family_size'] = test_data['Parch'] + test_data['SibSp'] + 1
knn_test = test_data[['Pclass','Sex','Age','Fare','family_size']].dropna()
knn_test['Sex'][knn_test['Sex'] == 'male'] = 1
knn_test['Sex'][knn_test['Sex'] == 'female'] = 0

from sklearn import neighbors

knn = neighbors.KNeighborsClassifier()
knn.fit(knn_train[['Pclass','Sex','Age','Fare','family_size']],knn_train['Survived'])

knn_test['predict'] = knn.predict(knn_test)
pre_survived = knn_test[knn_test['predict'] == 1].reset_index()
del pre_survived['index']
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,504评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,898评论 1 300
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,218评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,322评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,693评论 3 290
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,812评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,010评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,747评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,476评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,700评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,190评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,541评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,206评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,129评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,903评论 0 199
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,894评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,748评论 2 274

推荐阅读更多精彩内容