2021-07-11 Kaggle平台的使用

1. 背景

学习《动手学深度学习-李沐》教学时,第一次比赛内容是房价数据预测,使用的数据提交平台是Kaggle。前期也了解过Kaggle平台是有同学来面试,会提到参加Kaggle比赛的某某项目名次。对于这次学习的成果验证,也需要使用。

听到李沐介绍2000多个同学参加直播,实际参赛对于170多,参与率小于10%。除了技术之外,还有存在很多空间可以成长。同时我也目前属于90%的人群,主要还是不会使用Kaggle,闻其名不知其用。

过去的行为需要改变,主动学习并参与,进入Data Scientist的大群体,至少要学会Kaggle,因此整理学习过程用于当前总结和日后回顾之用。

2. Kaggle平台简介

Kaggle是一个服务于数据科学家,采用机器学习等方法进行数据竞赛排名的平台。成立于2010年,由Anthony Goldbloom和Jeremy Howard创立,在2017年3月8日,Google宣布收购Kaggle。

[1]wikipedia, https://en.wikipedia.org/wiki/Kaggle

3. 使用方法总结

3.1. 竞赛说明

竞赛类型:通用和其他

3.1.1. 通用竞赛:

  1. 特定型比赛:常用1000-5000支队伍短期内参赛,设有奖金有时达到100万美元。
    ·专家还是初学者,都可以学习技巧和讨论。
  2. 研究型比赛:一般几百支累计内参赛,不设有奖金。
    ·往往是对某一特定领域的深入研究。
  3. 初学者比赛:常会几千几万支对于参赛,是初学者学习的圣堂,往往是·机器学习重要的课题讨论和练习的场所。
    因为容易获得数据,查看代码,实际操练已经学习到的技巧,非常受到大家的欢迎。
  4. 游乐场:比初学者难度高一点,偶尔会有一些奖金。
    ·会有一些低风险的数据场景,提供练习。这次李沐的学习课程正是属于这个类型。

3.1.2. 其他竞赛:

  1. 招募比赛:用于招募员工而设立的比赛。
  2. 年度比赛:每年3月机器学习比赛,12月算法优化比赛。
  3. 限定参与比赛:一般一些大师互相切磋技艺,以邀请制形式出现。

3.2. 比赛形式

  1. 简单竞赛:
    ·最通常的竞赛形式,通过下载竞赛数据,本地建模,再上传结果的形式。
  2. 两阶段竞赛:
    ·分成一阶段和二阶段,根据一阶段的结果决定二阶段的比赛队伍,两个阶段的数据和形式都有可能变化。
  3. 代码竞赛:
    ·更为公平形式的竞赛,需要在Kaggle平台的Notebooks编写代码,使用公有云上的CPU和GPU建模比赛。
    ·往往获胜的队伍,是资源使用效率较高的类型。

3.3. 参加竞赛

3.3.1. 选择比赛

  1. 在竞赛列表(Competitions listing)寻找感兴趣的竞赛。
  2. 查看竞赛要求,以及其他信息:
    ·包括概览、数据、代码、讨论、计分板、规则等。
  3. 期间提交:过程中根据实际情况,交到数据,参与比赛。

3.3.2. 形成队伍

  1. 在竞赛期间可以形成队伍:


  2. 队伍成员:1人队伍和多人队伍。
  3. 队伍名称:可以修改。
  4. 合并队伍:在一定时期内可以在人数要求下,合并或者被合并队伍。
  5. 解散队伍:提交过代码后无法解散队伍。

3.3.3. 做出提交

  1. 为了得到模型分数,需要做提交数据或提交代码;
  2. 每天提交次数有限制,一般是5次/日,每次竞赛可能不同;
  3. 计分板:提交后可以查看成绩;


  4. 提交预测;
    4.1. 上传数据文件
    a. 大多数竞赛会选择的方式;
    b. 一般会有两个提交标签,“提交预测(Submit Predictions/Late Submission)”和“我的提交(My Submissions)”;
    c. “提交预测”:点击后,按照格式上传文件;
    d. “我的提交”:当提交预测多次后,可以根据自己的要求确认哪次提交为最终成绩;
    4.2.上传Notebook代码
    a. 在“代码(Code)”页面可以管理Notebook,详细可访问Notebooks
    b. 在该页面点击“新工作簿(New Notebook)”,使用竞赛数据,添加相关代码,进行建模预测;
    c. Notebook可以私人化也可以共享化,随时可以切换;
    d. 编写完成后,点击“保存版本(Save Version)”,弹窗中选择“保存并执行(Save & Run All)”,再点击“保存(Save)”,即完成一次提交;
    e. 当新版本完成后(从头至尾执行完提交代码),导航到Notebook版本页面查看结果,可以选择你的提交文件,点击“提交(Submit)”按钮,即完成代码提交。

3.4. 初学者资源

新用户可以选择Kaggle的机器学习算法入门:

  1. 二分类问题:Titanic: Machine Learning from Disaster
  2. 回归问题:House Prices: Advanced Regression Techniques

4. 参考资源:

  1. Kaggle Competitions
  2. 动手学深度学习在线课程
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 一、Kaggle是什么? Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,...
    Ivan_Lan阅读 52,658评论 0 36
  • 前段时间在学习MXnet提供的样例的时候接触了一下Kaggle的两届NDSB比赛,于是就稍微调研了一下Kaggle...
    ToeKnee阅读 19,783评论 1 32
  • 一、Kaggle是什么? Kaggle成立于2010年,是一个进行数据发掘和预测竞赛的在线平台。从公司的角度来讲,...
    高斯纯牛奶阅读 645评论 0 0
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,471评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,133评论 4 8