NNI的学习及简单示例

NNI

NNI是微软发布的一款AutoML工具,可以辅助算法工程师对现有模型进行自动调参。这篇博客总结下NNI的简单使用,并以Kaggle中的Titanic: Machine Learning from Disaster 竞赛为示例,演示如何使用NNI。

NNI的核心概念

  • Trial,是对模型上一系列参数的一次尝试。可以理解为,在给定参数下的一次训练。
  • Tunner,实现了Tunner API,用于指定参数搜索算法。
  • Assessor,实现了Assessor API,用于设定提前结束一次Trial的策略。可以减少寻参时间。

NNI的使用流程

NNI的使用分三步走:


NNI流程
  1. 定义参数空间
    我们需要告诉NNI哪些超参数要进行搜索,并且搜索的范围在哪里。定义好空间后,NNI会在给定的参数空间中进行搜索。
  2. 改写模型代码
    在原有的模型代码上进行改写,引入NNI的代码,使得NNI可以执行模型代码获取不同参数值组合下的模型执行结果。
  3. 定义实验
    在配置文件中定义好配置,包括作者名字实验名字训练次数模型代码位置参数空间配置文件位置Tunner算法Assessor算法 等等。
    在完成以上步骤之后,执行
    nni create --config config.yml

NNI会启动一个restful服务,并将测试的情况可视化展示在网页界面上。

NNI示例

结合Kaggle中的Titanic: Machine Learning from Disaster 竞赛来实现我们的NNI自动参数搜索。

  1. 定义参数空间
    这是一个search_space.json文件
{
    "learning_rate": {"_type":"uniform","_value":[0.01, 0.2]},
    "max_depth": {"_type":"choice","_value":[3,4,5,6]},
    "subsample": {"_type":"uniform","_value":[0.5, 1]},
    "colsample_btree": {"_type":"uniform", "_value":[0.5, 1]}
}

参数空间以json的形式进行配置。key是参数名,value是参数空间设定。value本身又是一个json对象,其中的_type指定参数的类型,_value指定参数的取值。由上图,我们可以看到对参数learning_rate指定的类型是“_type”:"uniform",即指定该参数的取值是连续的,且取值在[0.01, 0.2]之间。而参数max_depth的取值则是离散的,在3,4,5,6中取值。
更多的参数空间定义可以参考这里.

  1. 改写模型代码
    在原始的模型代码上加入NNI代码。代码省略数据预处理特征工程堆栈混合部分。参考了Kaggle Kernels中的代码点击查看
    这是一个nni_stack_xgb.json文件
import pandas as pd
import nni
from sklearn.model_selection import cross_val_score
import xgboost as xgb
from sklearn.model_selection import KFold
import pickle

x_train = pickle.load(open("./data/x_train", 'rb'))
x_test = pickle.load(open("./data/x_test", 'rb'))

test = pd.read_csv("./data/test.csv")
train = pd.read_csv("./data/train.csv")

passengerId = test['PassengerId']
y_train = train['Survived'].ravel()

# 获取默认参数
def get_default_parameters():
     params = {
          'learning_rate': 0.02,
          'n_estimators': 2000,
          'max_depth': 4,
          'min_child_weight':2,
          'gamma':0.9,
          'subsample':0.8,
          'colsample_bytree':0.8,
          'objective':'binary:logistic',
          'nthread':-1,
          'scale_pos_weight':1
     }
     return params

# 获取模型
def get_model(PARAMS):
     model = xgb.XGBClassifier()
     model.learning_rate = PARAMS.get("learning_rate")
     model.max_depth = PARAMS.get("max_depth")
     model.subsample = PARAMS.get("subsample")
     model.colsample_btree = PARAMS.get("colsample_btree")
     return model

# 运行模型
kf = KFold(n_splits=5)
def run(x_train, y_train, model):
     scores = cross_val_score(model, x_train, y_train, cv=kf)
     score = scores.mean()
     nni.report_final_result(score)

if __name__ == '__main__':
     RECEIVED_PARAMS = nni.get_next_parameter()
     PARAMS = get_default_parameters()
     PARAMS.update(RECEIVED_PARAMS)
     model = get_model(PARAMS)
     run(x_train, y_train, model)

在代码中,我们加入了三行

  • 获取不同参数值
RECEIVED_PARAMS = nni.get_next_parameter() 
  • 更新参数
PARAMS.update(RECEIVED_PARAMS)
  • 向NNI报告训练结果
nni.report_final_result(score)

3.定义实验
这是一个config.yml文件

authorName: default
experimentName: titanic
trialConcurrency: 1
maxExecDuration: 1h
maxTrialNum: 100
#choice: local, remote
trainingServicePlatform: local
searchSpacePath: search_space.json
#choice: true, false
useAnnotation: false
tuner:
  #choice: TPE, Random, Anneal, Evolution
  builtinTunerName: TPE
  classArgs:
    #choice: maximize, minimize
    optimize_mode: maximize
trial:
  command: python3 nni_stack_xgb.py
  codeDir: .
  gpuNum: 0
  1. 运行NNI
    执行下面命令
    nnictl create --config ./config.yml --port 8083
    我们可以在UI界面上清楚看到寻参的结果。
All Trials

参考资料

Introduction to Ensembling/Stacking in Python

Github Microsoft NNI

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270