泰坦尼克乘客存活状况(决策树案例)

1912年4月15日凌晨2点20分,“永不沉没”的“泰坦尼克”走完了它短暂的航程,缓缓沉入大西洋这座安静冰冷的坟墓。


Titanix

欢迎你们说我幼稚荒诞,也欢迎你们继续成熟苍凉。说起来,titanic是我至今觉得最为美妙的爱情电影,如饮蜜酒,甘不可言。这是一份绚烂到极致,使得人类的大难做了背景,还妄想突破时间和生死直达永恒的爱情。露丝从救生船上一跃而起,扑到窗边的一刹,因了这份勇敢和贪求,最为美丽。在有生的瞬间能遇到你,竟花光所有运气。

you're going to go on and you're going to make babies and watch them grow and you're going to die an old lady.
你将长寿,子孙满堂


乘客存活数据:http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

这里用决策树算法,按照乘客的社会阶层(pclass),年龄(age), 性别(sex)三个因素,来预测乘客最终的生存状况(survived)


import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import  DictVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
from sklearn.ensemble import RandomForestClassifier


def descsion():
    # 获取数据, 提取特征值和目标值
    Titanic_data = pd.read_csv("http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt")

    # 打印字段名
    print(Titanic_data.columns)

    # 分割出特定的字段(社会阶层, 年龄, 性别)对生存率的影响
    titanic_x = Titanic_data[["pclass", "age", "sex"]]
    titanic_y = Titanic_data[["survived"]]
    # 处理缺失值
    titanic_x["age"].fillna(titanic_x['age'].mean(), inplace=True)

    # 进行数据的分割
    x_train, x_test, y_train, y_test = train_test_split(titanic_x, titanic_y, train_size=0.25)

    # 对特征们进行字典特征抽取
    dict = DictVectorizer(sparse=False)

    x_train = dict.fit_transform(x_train.to_dict(orient="records"))
    x_test = dict.transform(x_test.to_dict(orient="records"))

    # 查看抽取后特征的名字
    feature_names = dict.get_feature_names()
    print(feature_names)


    # 进行决策树预测(可选:限制决策树最大深度为10)
    my_decision_tree = DecisionTreeClassifier(max_depth=10)
    my_decision_tree.fit(x_train, y_train)

    print("单棵决策树预测的准确率为:", my_decision_tree.score(x_test, y_test))

    # 将树的结构保存到本地
    export_graphviz(my_decision_tree, "./my_decision_tree.dot", feature_names = feature_names)

    """
    将dot文件装换为png的方法
    在本机安装graphviz ubuntu版安装: sudo apt install graphviz   mac版安装: brew install graphviz
    然后运行命令: dot -Tpng my_decision_tree.dot -o my_decision_tree.png
    生成png格式图片my_desion_tree.png
    """
    # 随机树森林算法, 建立20棵数, 树的最大深度为15
    rf = RandomForestClassifier(n_estimators=21, max_depth=20)
    rf.fit(x_train, y_train)
    print("随机数森林预测的准确率为:", rf.score(x_test, y_test))

if __name__ == '__main__':
    descsion()


运行结果

使用graphviz绘制决策树

1. 安装graphviz

  • ubuntu安装方式:
sudo apt install graphviz
  • mac安装方式
brew install graphviz

2. 通过终端,在.dot所在的目录运行命令,将.dot转换为png图片

dot -Tpng my_decision_tree.dot -o my_decision_tree.png
my_decision_tree

那些古板的绅士们要死得很体面。女士和儿童先上,男人们等待死亡。船上的乐队,从容演奏到了最后一刻。谁能告诉我,身边是世界末日的惊恐,但依然安静地演奏,是因为拥有了什么样的力量? “很高兴今晚和你们合作。”想起另外一部电影的一句台词:“假装我们明天还会再见。”生离死别,说了再见,但是没有明天。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容