利用Excel进行数据分析

本章主要讲述对上一章中爬取的数据通过Excel进行数据清洗和分析。

数据分析的基本步骤为:提出问题->理解数据->数据清洗->构建模型->数据可视化。

1. 提出问题

本次数据分析主要要分析的问题为:

    1.1 上海数据分析师招聘对于学历的要求。

    1.2 上海数据分析师招聘对于工作年限的要求。

    1.3 上海数据分析师工作年限与薪资间的关系。

    1.4 上海数据分析师招聘公司规模分布。

    1.5 上海数据分析师地区分布。

2. 理解数据

本次爬取得数据共有14个字段。

字段名及解释

3. 数据清洗

数据清洗的主要步骤为:选择子集->列名重命名->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理。

    3.1 选择子集

    根据提出的问题,本次分析主要要用到的有positionId,education,workYear,  salary, financeStage, companySize以及district。因此,可以先将整个原始数据复制一份到一个新的表格中,对新表格开始进行数据清洗。首先将不需要的列删除或者隐藏。

隐藏后留下的数据

    3.2 删除重复项

    由于列名已经设置好,因此跳过列名重命名这一项,直接进行重复项删除,因为每个岗位都有一个独自的positionId,所以要进行重复项删除的时候,可以以positionId为主键进行去重操作。

删除重复项

选择数据选项卡,选择删除重复值,选择positionId列,进行删除。

    3.3 缺失值处理

    经过查看后,没有发现有列存在缺失值,因此这步也可以跳过,如果存在缺失值,则有一下三种方式进行缺失值填充:1)通过人工手动补全。2)删除缺失数据。3)用统计值进行代替,如平均数,众数,中位数。4)用统计模型或机器学习算法计算出值进行填充。

    3.4 一致化处理

    对于salary列,需要用到数字进行排序,而且取值范围过多,因此决定取平均值作为一个新的列,要对其进行取数操作。首先是取出最低薪资,然后取出最高薪资,并求平均值。


利用LEFT函数结合FIND函数取出最小值
利用MID函数结合FIND函数和LEN取出最大值  

随后利用筛选功能发现有报错。


选择报错项查看问题所在。


报错原因为大写K

发现报错是因为大写的K无法用FIND找到,因此这里利用查找替换功能把大写的K全部换成小写的k。

替换完后报错消失

然后再对最大薪资进行检查。

同样有报错

筛选后发现是由于其中包含了文字。

因此直接把最小值赋给最大值作为参考。在处理完后,如果直接用最大值和最小值求平均会得到以下结果。

这是由于bottom和top的数据类型并不是数字,而是从字符串中截取的字符串类型,所以要先把这个数据复制下来并进行分列处理,转成数字。

复制后再用分列处理将值变为数字类型。

随后利用数字类型求出平均值,然后隐藏不需要的列即可。

4. 构建模型和数据可视化

数据清洗完成后,开始进行模型构建,这里主要用到的是数据透视表来进行关系建模。

根据提出的问题进行模型构建:

    4.1 上海数据分析师招聘对于学历的要求。

上海数据分析师招聘学历分布

    通过数据透视表制图后得出,上海对于数据分析师的学历要求大部分都处于本科学历,其岗位数值为1930个,占总岗位数的80.52%。因此上海数据分析师岗位对于学历的要求不算特别的高,相对而言不是特别的看重学历。

    4.2 上海数据分析师招聘对于工作年限的要求。

上海数据分析师招聘工作年限分布

    通过数据透视表制图得出,上海的数据分析师岗位对于3-5年工作经验的需求最高,其次是1-3年的工作经验,因此可以看出,大部分的数据分析师的岗位,对于工作经验,都有一定的要求,因此相比学历,上海的数据分析师岗位更加看重工作经验的积累。这一点可能是作为入行的最大难点。

    4.3 上海数据分析师工作年限与薪资间的关系。

上海数据分析师工作年限与薪资关系

    根据上图可以看出,上海数据分析师,应届毕业生的平均薪资为9.1k,作为起薪对比各个行业中都属于相对较高的了。而在有了一定的工作经验之后,薪资可以达到月薪15k的水平,其中1年以下工作经验和1-3年工作经验的平均薪资上差不多,因此从刚开始工作到拥有3年工作经验的期间,薪资主要集中在15k上下,在达到3年工作经验以后,又会有一个增长,3-5年平均薪资将会达到23k,在5-10年的工作经验区间内,薪资提升到了31k,超过10年工作经验后薪资则会大幅提升,平均薪资为53k。以上薪资均为月薪的平均值。因此可以看出,上海的数据分析师,无论是入行起薪,还是未来的职业发展,薪资增长,对比各行业都是非常不错的。

    4.4 上海数据分析师招聘公司规模分布。

上海数据分析师招聘公司类型分布

    根据上图,可以看出,在上海,公司人数越多,规模越大,对数据分析师的岗位需求越大,其中2000人以上的公司中,上市公司对数据分析师的岗位需求最大,其次是D轮以上公司,因此可见,随着公司规模的不断扩张,数据分析师的重要性也会越来越高,公司越大,越需要对数据进行分析从而给公司方向性的指导。在500-2000人及150-500人的中大型公司中,则是主要以不需要融资的公司为主。但总体分布而言,公司人数和规模越大,公司对数据分析师的岗位需求也会越强。

    4.5 上海数据分析师地区分布。

上海数据分析师招聘地区分布

    根据上图统计,在上海,浦东新区对于数据分析师的岗位需求最多,其中有775个岗位,占到总数的32%左右,大约有三分之一的岗位需求在浦东新区。原因可能有以下几个:1)浦东新区有陆家嘴,其中集中着大量的金融公司,金融公司对于数据分析师有大量需求。2)浦东新区有许多的互联网公司,尤其是张江高科园区内,有着大量的互联网公司,而互联网公司对于数据分析师有着较大的需求。除了浦东新区,包括徐汇区,长宁区,杨浦区内环区,均有大量的工作岗位,其原因可能是因为在市区有着更多的大型公司,而大型公司对于数据分析师的需求更高。

5. 结论与建议

综上,数据分析师对于学历的要求属于相对基本,不是决定性因素,而对于工作经验则相对看重。数据分析师的起薪非常不错,未来的职业发展和薪资增长也非常有前景。数据分析师去到大型企业或者公司的机会会更大,因为大型企业或公司对于数据分析师的需求更高,同时在上海工作,去到市中心或者浦东工作的概率会更大

本章结束,下一章会列出一些SQL的练习和答案。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容

  • ()这是一本刷新认知的好书。 作者平克指出,源于以下三大原因,大行其道多年的理性思维将变得不再那么重要,集中凸显感...
    Candier阅读 401评论 0 0
  • 1. 不敢相信,我居然得了糖尿病。 我虽然是高龄孕妇,但是整个孕期还算顺利,除了一点:患了妊娠糖尿病。 孕27周的...
    紫九九阅读 2,277评论 2 6
  • 引用路骋一句话:“好看的皮囊千篇一律,有用的大脑万里挑一”。最近我越来越是发现一个无比正确的道理:脑子是个好东西,...
    鹤一张阅读 1,698评论 1 1
  • 日本地方虽小,却有几处被登录为世界自然遗产的地方,而屋久岛是最早被登录的,这是其一的好奇心。屋久岛也是宫崎骏的动画...
    游不停的鱼阅读 336评论 0 1
  • 跃近不惑之年,越是怀念儿时的小伙伴。 有半年之久了吧,专和琴就在筹划一次聚会。 哈哈,我们仨是从小学初中高中以及工...
    许议文阅读 339评论 0 1