Excel数据分析实操(内含数据样本文件)

通过本次文章你能够得到什么

能得到什么

1、了解Excel数据分析的入门操作流程;

2、免费获得一份原始数据样本,可供实操;

3、遵循文章操作方法,半天可完成一次数据分析演练,文章相应的操作都可以再网上查到;

不能得到什么:看完文章,即入门数据分析。

适合人群:对数据分析感兴趣,熟悉excel常用功能的伙伴;

构建一个数据分析的场景

人物:小明,工龄2.5年

角色:产品经理

思考问题:解决方案架构师职业成为热门行业,小明想了解这个职业前景如何,是否适合自己,转型需要做哪些准备。

定义数据分析的步骤

如图:文章将数据分析定义为6个步骤:

1. 提出问题:带着明确的问题|目的出发,以始为终,目标导向,分析起来效率会更高;

2. 明确范围:提出问题后,需明白为达成这样的目的,至少需要哪些数据,宁多不少,避免在分析阶段时临时再补齐数据的情况

3. 获取数据:就是数据源,练习时可通过爬虫脚本、爬虫工具获取,用于工作的数据分析可从公司内部直接获取

4. 数据清洗:直接获取的数据往往不是我们想要的,或者存在异常的,需要进行转换,这将花去大量的时间

5. 模型构建:建立分析模型,以便得出最终结论

6. 数据分析:分析数据,可以通过数据统计、观察、数据可视化等形式进行分析;

STEP-1  提出问题:解决方案架构师的职位前景如何?

职位前景如何是一个大方向的问题,根据自身需求,进行问题拆解,我列取了几个拆解方向:

STEP-2    明确范围:我们需要获取哪些数据用于分析

明确了目标问题,还得明确为了得到这些问题的答案,我们需要哪些数据,由上述问题圈定数据范围如下:

最终明确所需数据范围为:岗位名称、薪资、工作经验要求、工作城市、所属行业、岗位描述、公司人数、融资情况

STEP3   获取数据:用于分析的原始数据

这里的数据的是从某第三方网站里爬的,已经基于本次演练的要求对数据进行聚合匹配,大家可以直接下载数据样本来练习;

数据已经匿去招聘网站的信息,现在的招聘网站基本都有反爬虫机制,挺繁琐,为了给大家省时间,也为了尽量不给招聘网站造成麻烦,此处的具体教程就略过,大家可直接下载样本数据练习。 

百度云:链接:https://pan.baidu.com/s/10m_hPYhjyf0WCfdNBWrwKg提取码:txah

STEP-4    数据清洗:用于分析的原始数据

(1) 根据我们的选定的数据范围,去除原始数据中对分析无帮助的的数据(注意要备份原始数据),如表中的发布时间、职业标签等。

(2) 设置为筛选模式:全选>>开始>>排序和筛选 >>筛选,效果如下。列表头都多了一个下拉选项

(3) 【薪资】待遇这一列有最低工资和最高工资,且是文本格式,出于分析需求,我们需要需要的是平均工资,因此我们需要提取这一列的最低工资和最高工资数值,用于换算成平均工资,所以在【薪资】列旁新增了3列:【最低工资】【最高工资】【平均工资】。【平均工资】=(【最低工资】+【最高工资】)/2,完场平均工资的计算,涉及5个常用函数:find、left、right、mid、len,可以上网查用法,应用到这个运算练习中,基本就掌握了。

下图详细阐述了如何从文本中提取最低工资和最高工资:

通过公式计算得到的平均工资:

这个过程中,会发现有些薪资的单位用大写K,以致我们公式失效,先使用ctrl+F键替换成小写就可以应用公式了;

(4) 在城市列,信息已经具体到城市的具体工作地点的,对我们来讲,仅需要城市信息即可,其他都是多余的,因此需要进行数据处理,同样新建一个列,用公式(提取文本首个空格前的字段) =LEFT(城市列,FIND(" ",城市列)-1),即可得到下图的效果,同样的问题在【融资阶段】列也存在,请使用相同的方法处理;

(5) 我们需要对岗位的任职资格进行分析,在【职位描述】列中我们只要任职资格信息用于分析,而岗位描述信息是多余的,所以我们在表中新建一列【任职资格】,并从【职位描述】列中把相应的信息提炼出来。由于【职位描述】没有统一的叙述模板,我们根据 “要求”、“条件”、“资格”等关键词,并从关键词的位置开始,截取我们所需要的内容,公式如:=MID(职位描述列,FIND("条件",职位描述列),LEN(职位描述列)-FIND("条件",职位描述列))

由于公式一次只能能使用一个关键词进行截取,因此需要往复操作基,操作流程:a.新建列->b.用公式根据“条件”关键词截取->点击【认知资格】列头部下拉图标筛选,仅选中#VALUE项->再往复使用“资格”、“要求”关键词筛选->剩下的无法用公式截取的异常值可以考虑手动获取或直接删除;(~。~清洗数据真的挺消耗时间的);

(6)有了这些岗位任职资格信息后,显然我们还很难从这么多的数据里看出具体的岗位要求,于是我们判断任职资格内容是否包含技能关键词,判断岗位对具体的技能是否有要求。

技能关键词:学历、英语、管理、技术、逻辑、作品、数据分析、出差、文章撰写、沟通。

公式解释:如果【任职资格列】包含相关技能的关键词,则标注为【是】,反之为【否】,具体公式:

学历要求:=IF(COUNT(FIND({"985","211"},任职资格列)),"是","否")

英语水平要求=IF(COUNT(FIND({"英语","四级","六级","CET-4","CET-6","cet-4","cet-6"},任职资格列)),"是","否")

管理能力要求=IF(COUNT(FIND({"管理经验","管理能力","团队管理"},任职资格列)),"是","否")

沟通协作能力要求=IF(COUNT(FIND({"沟通","交流","表达","口才"},任职资格列)),"是","否")

技术能力要求=IF(COUNT(FIND({"技术","开发","研发"},任职资格列)),"是","否")

逻辑思维能力要求=IF(COUNT(FIND({"逻辑","思维"},任职资格列)),"是","否")

作品要求=IF(COUNT(FIND("作品",任职资格列)),"是","否")

数据分析要求=IF(COUNT(FIND("数据分析",任职资格列)),"是","否")

出差要去=IF(COUNT(FIND("出差",任职资格列)),"是","否")

文档撰写要求=IF(COUNT(FIND({"文档","包装","撰写","书写"},任职资格列)),"是","否")

筛选效果图:

(6)数据清洗的最终效果:如下图,这就是我们在【明确范围】阶段所明确的数据,包含:岗位名称、.薪资、.工作经验、城市、岗位所属行业、岗位描述、公司人数、融资情况

STEP5 6   模型构建+数据分析

模型构建和分析是密不可分的,我们主要通过数据透视表分析,透视表的简单用法大家可以上网简单查下学习下:

接下来,对照着咱们最初提出的问题,一个一个构建分析模型并分析结果:

问题1:岗位平均工资?

新建数据透视表,我们设置行标签为【工作城市】,列标签选择【工作经验】,值选择【平均工资】,基本我们就能看到平均工资和城市、工作年限的关系了。

当然这还不够,为了数据展示方便,在列标签点击表头的下拉图标,仅选择我们关心的工作年限:1~3年、3~5年、5~10年、10年,这样做完后,还可以对自上而下对平均工资进行降序排序;右击【平均值项:平均工资】>>值显示方式>>降序排序。效果图如下:

阶段结论1:工资随着工作年限增长而增长,整体的工资水平符合转行预期;

阶段结论2:平均薪资前10为:北京、重庆、宁波、杭州、深圳、济南、上海、广州、南京、西安(该结论不成立,样本少,数据不具备代表性,下文继续论证)

问题2:城市前景

在问题1中,薪资TOP10的城市为:北京、重庆、宁波、杭州、深圳、济南、上海、广州、南京、西安,接下来继续从城市的招聘岗位数量进一步论证。把【平均工资】替换成【职位名称】,我们看到照片岗位数量TOP10的城市为:北京、深圳、上海、杭州、广州、成都、南京、西安、武汉、苏州;现在可以发现,尽管 薪资TOP10中的重庆、宁波排名很靠前,但是岗位数量实在太少,并不是一个很好的去向城市; 综合考量,最值得去的城市TOP5排名是:北京、深圳、上海、杭州,其次是广州,而且看出广州的在薪资和岗位数量和其他一线都有比较大的差距。

数据比较少的情况可以直接肉眼观察,我们同样可以设置一个可量化对比值来评测,最简单的方式是:按各个城市岗位的薪资总和来评判,当然也可以根据诉求,定制一些排名指标。

问题3:岗位技能要求?

此步骤不需要用到透视表,直接新建一个相对应的表格,应用简单的公式,就能马上看出所有岗位对具体技能的要求占比,

技能要求占比=对技能有要求的岗位数/总岗位数,

公式:COUNTIF(技能列,"是")/COUNTA(技能列),COUNTIF函数统计列中值为“是”的单元格数,COUNTA总单元格数。

从表格中我们可以分析得出,刚职业对【沟通】、【技术】、【文档】、【逻辑】能力的要求占比很高,未来想往相关方面转型,得提前做好能力养成,相反在学历、数据分析和作品上,整体要求不高。出差也占据了一定比例,是否接受能出差也是一个重要考量标准。

问题4:小公司OR大公司?

首先从不同员工规模公司发布的岗位数量维度进行分析,新建透视表,行标签设置为【公司(员工数)】,列标签【工作经验】,值为【职位名称】,为了更直观观察不同规模公司发布的岗位数量占比,我们采用百分比的形式展示(右击【计数项:职位名称】>>值显示方式>>总计的百分比),从表中我们可以看到,不同员工规模公司发布的岗位数占比均匀,说明大小公司对于这个岗位均有较强需求,其中150~500人规模的企业更需要这方面的人才。

接下来从薪资的维度分析选择大或公司的差异。透视表行标签【公司(员工数)】、列标签为【工作经验】、值为【平均工资】,下图可以明显看出,薪资随公司的规模递增,从薪资的维度来看,大公司更值得去。

以上就是本次分析的一些主要维度,其实对维度的组合数据,还可以发现一些有趣的内容,也可以将数据通过可视化的形式更直白的展示出来。

以始为终:复盘数据分析目标是否达到

回顾我们最开始提出的问题:

分析结果复盘:


个人做的一个简单的小DEMO,欢迎各位大神指导。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271

推荐阅读更多精彩内容

  • 从去年起,大数据的概念莫名其妙的就火起来了,淘宝智能推荐、阿尔法dog战败柯洁、滴滴杀熟、Facebook数据门等...
    那个人好像一条狗呀阅读 1,752评论 0 1
  • 我一直在谈,利与义的关系,两者需要双手交互着均衡,有义无利不行,有利无义更糟糕。孔子最欣赏的学生是颜回,老夫子给予...
    傅占杰阅读 475评论 0 1
  • 一个小群里,有人发上来一段视频。 我点开看,场景是街道一角,两个女人在痛打一个女人,旁边还有两个男人,按住另外一个...
    张丛杨阅读 1,825评论 2 39
  • 两个皇后之间是不能同行,不能同列,也不能同一条斜线(正反两条斜线)的。问一个n*n棋盘上面放置n个皇后有多少种放法?
    杰伦哎呦哎呦阅读 1,147评论 0 1
  • 在这个小小的大学 在梧桐树恰是最漂亮的绿色的时候 走在雨后黝黑黝黑的柏油路上 和一枚知心姐姐说说笑笑 这应该就是诗...
    委婉的小仓鼠阅读 253评论 0 0