拉勾数据告诉你,如何选择大数据行业切入点

=========版权所有,如需转载,请联系作者=========

长文预警:本文5000字,各位看官可挑选感兴趣的章节查看,全部读完体验更佳哦

这份报告是我正好在一年前(2018.6)写的,基于2018年6月成都地区的拉勾数据进行的挖掘和分析,一年过去了,可以脱敏发出来了,正好给大家做个求职的参考(大家可以与拉勾目前的招聘数据进行对比,从而从时间维度分析一波趋势)。

完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。

本文将为你解答:

  • 想搞大数据,该进入哪个行业?-->各行业的大数据人才需求情况
  • 想搞大数据,该选哪个岗位?-->大数据的哪种职位更抢手?各职位的门槛和吸引力如何?各职位的要求共性是什么?哪些职位的老司机更吃香?
  • 你的薪资拖行业后腿了么?
  • 彩蛋:人才价格计算器(附源码)

注,以下分析均基于2018年6月的拉钩数据

01 数据说明

我知道大家都想直接看结论,但作为数据分析师的我还是忍不住想要先说明数据结构,毕竟了解源头才能更理性地看待分析结果嘛。

本次分析的数据来自拉勾,按照职位关键字,在拉勾网爬取的截至2018年6月的成都地区相关职位信息,清洗去重有效数据2398条,包含以下字段:

No. 字段 字段意义 处理方法
1 company 公司名称 /
2 industry 公司所属行业 字段格式化处理industry_format
3 stage 公司阶段 /
4 companysize 公司规模 上下限均值字段
5 search_zw 职位搜索关键词 字段格式化处理classified_zw
6 company_zw 招聘信息职位 /
7 salary 月薪范围 上下限均值字段
8 workyear 工作年限要求 上下限均值字段
9 degree 学历要求 大专-1,本科-2,硕士-3,不限-0
10 positionid 职位编号 用于去重
11 content 职位描述

由于仅爬取了拉勾数据,数据样本较小,因此分析结果可能不够全面客观,同时会影响人才价格计算器预测的准确性,不过由于拉勾是目前最大的互联网招聘平台,用此数据洞察大体趋势足矣。若后期有必要,可以从猎聘、boss直聘等招聘网站拓展数据源。

02 想搞大数据,该进入哪个行业?

我们先来看看,哪些行业对于大数据岗位需求较大,

行业 发布职位数
移动互联网 1319
电子商务 221
金融 180
企业服务 133
数据服务 116
信息安全 80
其他 64
教育 53
医疗健康 49
游戏 45
硬件 31
广告营销 25
O2O 23
旅游 16
生活服务 16
社交网络 14
文化娱乐 6
招聘 1

可以鲜明地看到,移动互联网、电子商务、金融行业对于大数据岗位的诉求远高于其他行业,其中移动互联网远超第二名,移动互联网多对应手机应用,这类行业对于数据仓库、前端、算法、推荐系统等技术的需求较大。从18年的市场来看,电商大数据、金融大数据(Fin-tech)的发展较其他行业早,资本也较多的投入了这两个行业,不过目前来看(19年),教育+大数据也开始升温。

让我们继续下沉,看看各行业对于大数据岗位的需求情况,

金融、电商行业对于分析师的招聘需求较大,这两个行业更注重数据分析后产出的信息对电商、金融行业的指导作用,可能将偏技术的工作外包给数据服务等第三方公司,让我们看看是不是这样,

结果比较吻合我们刚才的假设,数据服务行业更注重技术,招聘需求集中在java、前端、算法、挖掘等技术性岗位。

再来看看广告营销行业的情况,

与预想的不同,广告营销行业的算法工程师需求最大,对于数据分析师的需求量反而很小,该行业可能对应推荐算法、精准营销有强烈的需求。

03 想搞大数据,该选哪个岗位?

先来整体看看,大数据行业需要哪类人才,java、前端、数据分析师岗位的需求是最大的。

职位 发布职位数
java工程师 1033
前端 803
数据分析师 159
算法工程师 115
产品运营 68
测试工程师 64
产品经理 54
数据挖掘 36
建模工程师 22
爬虫工程师 25
产业研究员 19

3.1 职位门槛和吸引力

如何衡量一个职位的门槛有多高,一个职位的吸引力有多高呢? 搞一个门槛指数和吸引力指数如何。

  • 门槛指数:某职位的学历分布比例、工作年限要求分布比例的加权求和表示该职位门槛,衡量入职该职位的难易程度,公式如下,
  • 吸引力指数:某职位提供薪水比例加权除以该职位门槛指数,衡量该职位对求职者的吸引力,公式如下,

据此,我们对比以下数据分析师、数据挖掘、算法工程师这三个比较热门的职位门槛和吸引力情况,

可以看到,数据分析师门槛最低,数据挖掘门槛高于算法(这里存疑,因为本次数据中数据挖掘职位数量较少,门槛指数参考性较低,实际可能是算法工程师门槛更高);结合薪资来看,数据挖掘岗位的吸引力最大,其次是算法工程师。

3.2 哪些职位的老司机更吃香

我们知道,随着工作年限的增长,人才薪水也会增加,但是不同岗位,薪水增长速度是不一样的,哪个岗位的老司机更加吃香呢?

下面我们根据前述岗位的门槛、天花板,选取几个有代表性的岗位进行分析:数据挖掘、数据分析师、算法工程师,看看各个职位的“老司机吃香指数”。

先从整体看看这个趋势:随着工作年限的增长,薪资呈类指数增长的态势。

下面我们深入到各职位看看薪资增长态势,

可以看到,

  • 数据挖掘,起薪较高,前3年属于一个经验积累阶段,此阶段的薪水变化不大,说明人才市场对于0-3年经验的数据挖掘更偏向于一视同仁,其中1-3年工作经验的低薪水较0经验低薪水普遍向上提升3k左右,0经验的招聘需求中可能有实习岗位的影响。随着工作经验的增加,经验>3年后人才价格有一个大幅增长,5-10年的经验薪水中位数可达28k左右,但此岗位是一个新兴岗位,需求量巨大但大学教育的人才输送尚未到达,社招转岗人才较多,因此造就了此岗位老司机的高薪水;

  • 算法工程师,1年及以下的职位多数属于实习职位,因此薪资较低,而正式工作岗位(>1年工作经验)的起薪高(门槛高),并且随着经验增加,薪水增长较快,经验超过3年后的薪水涨幅超过数据挖掘岗位,因为算法对于数学、统计学、编程等知识要求更高,一般都是科班出身的高素质人才,成长空间更大;

  • 数据分析师,起薪较低(门槛低),3年以下的经验薪水都较低,数据分析岗位更偏重于工具的使用以及按照分析模板输出报告等,对于独立创新性分析能力并不像产业研究员那样高,随着经验增加,薪水增长较慢,5-10年的经验并不一定比3-5年吃香,天花板较低。

刚才是直观的分析,下面我们定量分析一波

定义老司机吃香指数,衡量各岗位在各工作年限要求下月薪中位数的变化情况,如下

计算结果如下,

可以看到,java工程师中的老司机最吃香,吃香指数达26.9,高出第二名算法工程师8个点,该行业较其他行业起步早,已经渗透到技术的方方面面;算法工程师中的老司机吃香指数第二,该职位对理论基础要求较高,高级人才需要结合实践、时间积累才能培养出来,因此老司机抢手;测试工程师天花板较低,老司机价值不大,员工可在短时间内积累足够的经验胜任该职位,因此老司机价值不如其他行业大。

3.3 我能胜任这个职位么?

下面我们进一步分析几个热门职位的岗位要求,处理过程可以参考这篇文章

算法攻城狮

算法工程师能力要求(左图)主要集中在模型、数学、编程等偏理论性的能力上;技能要求(右图)主要集中在Matlab、Hadoop、Java、Python等偏数学统计、数据库、建模等方面的软件或语言上。

数据挖掘工

数据挖掘能力要求(左图)主要集中在建模、聚类、分类、统计、回归、文本处理、标签等偏实际应用的方面;技能要求(右图)主要集中在Python、SQL、SAS等偏挖掘、统计的工具上,对于Hadoop等数据库相关的技能要求没有算法工程师那么多。

数据分析狮

数据分析师能力要求(左图)主要集中在行业分析、报表统计、报告专项等方面,要求具有较高的业务思维和对行业的深刻理解;技能要求(右图)主要集中在Excel、SQL、PPT等偏展示性的工具上,对于python等技能的要求没有数据挖掘多。

Java攻城狮

Java工程师能力要求(左图)主要集中在编程、架构设计、数据库、分布式等方面;技能要求(右图)主要集中在Java、Spring、Linux、Oracle、HTML等方面,更加偏向于底层语言。

前端攻城狮

前端能力要求(左图)主要集中在可视化、网页、浏览器、工程化等方面;技能要求(右图)主要集中在CSS、Web、UI、HTML、Javascript等方面,与Java工程师的技能要求差异明显。

04 你的薪资拖后腿了么?

接着,我们来看看薪资统计情况,

你的薪资拖行业后腿了么?

  1. 广告营销行业的月薪中位数最高,金融、电商行业的月薪均值较高,由于数据分析对于这些行业有较强的指导作用,能够产出较大价值(如广告营销+大数据=增长黑客/数字营销、金融+大数据=Fin-tech金融科技)

  2. 广告营销的低薪水普遍高于其他行业,入职门槛较其他行业高(高薪水意味着高要求),并且有很大的增长空间,大部分广告营销岗位集中在高薪水范围

  3. 移动互联网、电商、金融行业的薪水有极高值出现,说明成都地区对于这些行业有高端职位提供,也说明这几个行业目前与大数据磨合比较成熟,有一定的商业模式,能够提供高薪水

你的薪资拖职位后腿了么?

  1. 数据分析师、建模工程师、爬虫工程师、测试工程师、产品运营的月薪整体分布较低(上下四分位数),入职门槛较低(下四分位数),天花板也不高(上四分位数),对于建模工程师的低薪水有疑问,于是下探数据发现建模工程师的职位描述偏重于单环节的运用模型、整理汇总等工作,并非复合型人才,因此认为数据合理,这些较低薪水的岗位描述以单技能、或者技术含量不高(没有差异性)的工作为主

  2. 数据挖掘、产业研究员、算法工程师的薪水中位数偏高,这些岗位以综合性技能、经验积累、高技术含量为主,因此薪水偏高。其中产业研究员的中位数较高,说明大部分产业研究员的市场价格还是很高的,这部分高薪水产业研究员可能要求较高的经验,后续我们下探分析。数据挖掘、算法工程师薪水下四分位数较高,这两个岗位技术含量高,入行门槛高

  3. 单维度分析发现java工程师职位数量最多,说明这个职位在成都需求量大,很是火热,但从薪资统计分布来看,薪资主要分布在10-15k之间,有较多高薪水的极值点,该行业较其他行业起步早,java已经渗透到技术的方方面面,行业薪资已经有一个比较确定的范围,对于老经验的人才该职位也能提供较为高的薪水

05 彩蛋:人才价格计算器

你可以用这个计算器,计算你在人才市场卖的了什么价~

根据上述分析,我们知道,人才价格与求职者经验、求职者学历、求职岗位、公司规模密切相关,于是,我们想设计一个计算器,输入上述信息,就可以预测某个人才的市场价格。

整个计算器设计思路如下:

KNN分类器改进版(改进输出为离散值)——认为离输入x最近的k个点对应的月薪均值的均值是x的输出,

  • k默认为 训练样本数/100+1
  • 距离度量为欧氏距离
  • 决策规则:加权距离最近的k个点的y的均值
    • 加权距离:根据不同岗位下,学历、经验、公司规模与薪水的相关系数,计算输入x与训练集x的加权距离
    • y的均值:为了改进输出为离散值的问题,认为离输入x最近的k个点对应的月薪均值的均值是x的输出

输入输出

输入:求职职位、工作年限、学历、所求职的公司规模
输出:在指定求职职位、求职公司规模、经验和学历的条件下,人才的市场价格(月薪均值)

说明

由于数据集是成都地区大数据相关行业数据,因此本计算器仅对成都地区适用,可以通过增加其他地区(如北京、上海、广州等)的数据来设计不同地域的人才价格计算器(算法原理一样,只是数据集不同而已)
由于数据量有限,特别是细分到不同职位的数量,因此对于数据量较小的职位,计算器的计算结果不准确,可以通过增加样本数量来提高计算的准确性。

不足

没有将职位描述这个信息量丰富的长文本纳入建模
改进:可加入职位描述关键词与求职者能力关键词匹配,影响月薪水平

使用体验
Step1 输入求职职位

Step2 输入求职公司规模

Step3 输入求职者工作年限

Step4 输入求职者学历

Step5 duang~ 得到此人才的市场价格

源码

已上传到github,点击查看

篇幅有限,这里是简化版,完整版的报告放在我的公号(dengshatongxue)里了,大家后台回复001可下载。

感谢观看,以上为基于2018年6月的拉勾数据,仅供参考,如果与现在的数据进行对比,还可以分析出趋势变化,更有意思,抛砖引玉,希望有小伙伴可以继续分析下去~~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 以下文章转载自知乎,暗灭-京华九月秋近寒,浮沉半生影长单. 暗灭 京华九月秋近寒,浮沉半生影长单 10,850 人...
    ve追风_685b阅读 3,997评论 1 15
  • 本文通过查询相关资料,明确了市场上数据科学的相关职位,继而确定了搜索职位为:数据分析师、算法工程师、数据挖掘、数据...
    昆明石头阅读 1,281评论 1 4
  • 我觉得,最不靠谱的人应该是说话不算数的人。一个人,如果连他说出来的话,都没有办法兑现,那么就会失去人们对他的信任。...
    漪禾渡江阅读 7,669评论 46 59
  • 七绝(新韵) 谷雨抒怀 文/常龙须 谷雨时节一场雨, 田园沃土润生机。 时不可待农忙种, 笑看金秋硕果...
    龙心须言阅读 263评论 0 1
  • 知否,林小娘和王氏大娘子的儿子都去科考。准备的时候两个房里都忙忙的。考完林小娘生的儿子没有考上,王氏大娘子的儿子...
    片留阅读 380评论 0 2