xgboost分类算法

标签： xgboost
作者：炼己者

欢迎大家访问我的简书以及我的博客
本博客所有内容以学习、研究和分享为主，如需转载，请联系本人，标明作者和出处，并且是非商业用途，谢谢！

1.摘要

xgboost 是个很棒的算法，基本上遇到分类问题，都会先拿xgboost跑一跑，因为它的效果是很好的。此算法源自陈天奇大佬，它的原理我就不多说了，可以去看大神的论文。

本文主要介绍xgboost算法的实现。xgboost算法有两种方法可以实现，第一种就是调用sklearn库，第二种就是网上下载的xgboost包。本文两种方法都会介绍。

2.操作思路

(1)调用sklearn库的xgboost算法来进行文本分类

第一步：把文本转为TFIDF向量

这里面就涉及到了文本的预处理了，有很多操作，套路是固定的。比如去停用词，去掉一些指定的奇怪符号，分词等操作。详情大家可以看这篇文章——中文文本的预处理。对于怎么用sklearn库将文本转为TFIDF向量，大家可以看这篇文章——使用不同的方法计算TF-IDF值

第二步：调用sklearn的xgboost算法

from xgboost import XGBClassifier
xgbc = XGBClassifier()
xgbc.fit(X_train, y_train)

X_train, y_train数据格式符合sklearn的要求即可,这里不再赘述，其实直接调用sklearn计算tfidf的方法就可以了

(2)调用xgboost库来进行文本分类

首先下载xgboost算法包，从下面这个网址就可以找到windows版本的了
https://www.lfd.uci.edu/~gohlke/pythonlibs/

看了网上很多文章，好多都不直截了当地把数据给你看，竟说一些虚的。你不知道这个算法包所要求的数据格式，那该怎么操作。
所以我们首先看一下xgboost算法包所要求的数据格式

-1 3367:0.5103014996095588 58258:0.7395069334859974 2027:0.43900099637970286 100000:0
-1 4:1.0 100000:0
-1 415:0.6398192123775941 1519:0.4588776849973563 416:0.3584690940979446 1793:0.40344923876987276 181:0.2979786334564799 100000:0
-1 100000:0
-1 1198:0.40847247591945973 2696:0.3283454215475906 4177:0.44923012253203026 5138:0.5667874369451246 793:0.322578190068597 89:0.3134120772849428 100000:0
-1 5723:0.7442708333186842 11957:0.667877927971206 100000:0
-1 1242:0.291656345459087 1042:0.5230367071957044 867:0.201093108317622 4653:0.12886942653591874 1677:0.11557567851702705 401:0.09045277190046198 1418:0.37780570665526336 23187:0.17435885282574362 19413:0.18153924925026366 47353:0.21588503167788953 26486:0.1776484644780567 140:0.06556371798587017 3552:0.3134346764736389 9923:0.14897284990847234 4235:0.1400130703981178 10074:0.201093108317622 5003:0.1400130703981178 477:0.059368723610437456 3138:0.12432562118943459 18158:0.19244038783832423 11634:0.13464996157113307 100000:0
-1 4009:0.25082607952773406 2565:0.23419907434673645 1804:0.3433315414553655 17453:0.45143782878931465 5423:0.3564658009755151 19011:0.4717358825927435 3323:0.3780312936247865 4965:0.26087188739580747 100000:0
-1 22:0.1587631734435183 412:0.1300669379236184 413:0.22962362689914045 414:0.9071773544857186 181:0.15109135553114256 415:0.16221155015652758 416:0.1817633053585686 100000:0
-1 1384:0.7633678190724622 1:0.6459640646387018 100000:0
-1 2:0.6671390512446658 4915:0.7449332092908513 100000:0

每一行表示一个样本，我们用第一行举例，开头的“-1”是样本的类别(也就是标签)。剩下的数据比如这个，"3367:0.5103014996095588",左边的3367是指词的ID值，右边就是TFIDF值。是不是感觉很眼熟，没错，用gensim库计算的TFIDF值就可以得到这种格式。
还是看那篇文章——使用不同的方法计算TF-IDF值
给大家看一下用gensim得到TFIDF的格式

[[(0, 0.33699829595119235),
  (1, 0.8119707171924228),
  (2, 0.33699829595119235),
  (4, 0.33699829595119235)],
 [(0, 0.10212329019650272),
  (2, 0.10212329019650272),
  (4, 0.10212329019650272),
  (5, 0.9842319344536239)],
 [(6, 0.5773502691896258), (7, 0.5773502691896258), (8, 0.5773502691896258)],
 [(0, 0.33699829595119235),
  (1, 0.8119707171924228),
  (2, 0.33699829595119235),
  (4, 0.33699829595119235)]]

所以接下来把用gensim训练得到的TFIDF向量转为我们需要的数据格式即可
我在这里写个示例代码，大家仿照着做即可，至于标签的写入仿照着来就行

a = [[(0, 0.33699829595119235),
  (1, 0.8119707171924228),
  (2, 0.33699829595119235),
  (4, 0.33699829595119235)],
 [(0, 0.10212329019650272),
  (2, 0.10212329019650272),
  (4, 0.10212329019650272),
  (5, 0.9842319344536239)],
 [(6, 0.5773502691896258), (7, 0.5773502691896258), (8, 0.5773502691896258)],
 [(0, 0.33699829595119235),
  (1, 0.8119707171924228),
  (2, 0.33699829595119235),
  (4, 0.33699829595119235)]]

with open('test.txt','w',encoding='utf-8') as fw:
    for i in range(len(a)):
        for j in range(len(a[i])):
            fw.write(str(a[i][j][0]) + ":" + str(a[i][j][1]) + '\n')

由上面代码可输出：

0:0.33699829595119235
1:0.8119707171924228
2:0.33699829595119235
4:0.33699829595119235
0:0.10212329019650272
2:0.10212329019650272
4:0.10212329019650272
5:0.9842319344536239
6:0.5773502691896258
7:0.5773502691896258
8:0.5773502691896258
0:0.33699829595119235
1:0.8119707171924228
2:0.33699829595119235
4:0.33699829595119235

数据转换好之后，我们可以正式操作了

A. 导入数据包

import xgboost as xgb

B. XGBoost自定义了一个数据矩阵类DMatrix，将我们的数据转为矩阵

temp_train.txt 和 temp_test.txt就是我们的前面转换好的数据

dtrain = xgb.DMatrix('temp_train.txt') 
dtest = xgb.DMatrix('temp_test.txt')

C. 训练并保存模型

模型参数

param = {'max_depth':2,'eta':1,'silent':0,'objective':'binary:logistic'}
num_round = 2

训练模型并保存模型

bst = xgb.train(param,dtrain,num_round)
bst.save_model('xgboost.model')

预测标签(xgboost得到的是预测标签的概率，所以我们要将其转为标签)

preds = bst.predict(dtest) # 得到的是第一类别的概率 
p_label = [round(value) for value in preds] # 得到预测标签

3. 总结

xgboost是一个很好的算法，一般的分类比赛都会先用xgboost跑一遍看看效果，所以在这里分享给大家如何操作，希望会对大家有所帮助

以下是我所有文章的目录，大家如果感兴趣，也可以前往查看
👉戳右边：打开它，也许会看到很多对你有帮助的文章

最后编辑于：2018.10.27 12:07:51

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,569评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,499评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,271评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,087评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,474评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,670评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,911评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,636评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,397评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,607评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,093评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,418评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,074评论 3赞 237
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,092评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,865评论 0赞 196
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,726评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,627评论 2赞 270