千万知乎用户数据分析报告

关于

最近爬取了知乎1000万的用户数据,耗时一周。

使用 ElasticSearch + Kibana 实现数据存储,可视化。

数据爬取时间为 2019年7月(3-9)日

抓到的数据大部分都是资料不完善,以下分析会过滤掉资料为空的那部分。

涉及到性别:-1:未知,0:女, 1;男

本文思路参考 这里

数据分析

现居城市分布
【知乎】城市性别分布-直方图.jpg

可以看到北京上海用户数量领跑其它城市,所有城市都是男用户稍占多一点。出现了深圳,深圳市 还有 广州,广州市,因为在知乎的个人资料中,居住地这个选项是手动填写而不是选择。
(这里由于kibana用的不熟,暂时不知道怎么把合并,欢迎知道的朋友告知)

行业分布
【知乎】行业性别分布-直方图.jpg

可以看出互联网行业一骑绝尘,领先第二名一倍;而第二名计算机软件也是兄弟行业。比较有意思的是以行业划分的话,有比较多行业女性数量占优(高等教育、临床医学、创意艺术、财务、法律、基础教育、教育、广播电视、广告、培训)。而反观计算机软件、电子游戏、机械设备、电子电器、计算机硬件这些行业男性数量大幅占优。比较意外的是有这么多人从事电子游戏行业,超过了很多传统行业(当然有可能这个职业的人在知乎上比较活跃)。

职业分布
【知乎】职业性别分布-直方图.jpg

有了行业分布,我们顺便再看看按照职业划分如何。与参考文章不同的是,现在知乎上学生占比最多,可能是知乎当前目标群体为学生,加大校园推广力度。这里我理解是资本入股后的营收压力,使知乎选择了这样的战略。(另外软件工程师,前端,程序员和算法工程师那夸张的男女比例是什么鬼=.=)

学校分布
【知乎】学校性别分布-直方图.jpg

可以看到各高校间的差距并不是特别明显,跟现居城市相对应,北京的清北在前三占据两个席位。杭州在城市中排第三,浙大的学子功不可没。比较有意思的是 克莱登大学(“克莱登大学”原本是钱钟书先生小说《围城》里虚构的骗子学校),另外 中国传媒大学 是前50里边唯一女生数量比男生多的学校。

专业分布
【知乎】专业性别分布-直方图.jpg

看完学校,我们最后来看一下专业分布。计算机相关行业占据绝对优势,我想到原因有二:近年来市场对计算机相关人才需求巨大;同时计算机相关人员玩知乎占比较大。法学在前排是让我比较意外的。

关注者数量与回答数量

看了那么多各种类型的分布,我们来关注一些不一样的


关注者数量与回答数量.jpg

这里列出了关注者数量前30的用户,第一知乎日报应该是知乎官方推荐的账号,张佳伟,丁香医生紧随其后。刘看山也是知乎官方账号,关注者数量似乎还在猛涨,从拉取数据到我写此文几天时间,关注数量涨了20w。轮子哥惊人的22k+回答数显得格外活跃(或许是机器人回答的,谁知道呢。另外经统计轮子哥是目前知乎上回答数量最多的)。

被赞数量与回答数量

再来看一下被赞的数量最多的有哪些人

【知乎】被赞数量与回答数量.jpg

可以看到张佳伟,丁香医生还是前排,轮子哥屈居第三。后面又好多用户回答数量并不多,同样收获了好多赞。看看这里面有没有你关注的人吧~

高校被赞与被收藏数量
【知乎】高校被赞与被收藏数量.jpg

再来对比一下哪些高校被赞数量最多。可以看出清北,浙大,复旦,上交,武大等Top N 学校影响力还是比较大的。另外克莱登大学很顽皮的排到的第三。

被关注者数量分布

看了那么多柱状图,搞个饼图来看一下被关注者数量分布,看看自己在知乎属于什么水平


【知乎】关注者数量分布-饼图.jpg

可以看到大部分知乎用户是没人关注的,如果你拥有一个以上关注者,那么恭喜你打败了75.37%的知乎用户。看来还是很多人跟我一样,是一个知乎小透明~

来一个具体的表格

区间 人数
0-1 6248540
2-10 1326050
11-50 430039
51-100 95009
101-500 119354
501-1000 25592
1001-10000 39441
10001-100000 5893
1000001+ 745
用户活跃比率

数据里边有个is_active字段,看起来是一个时间戳。我猜这个字段记录的是用户最后一次登录时间,就这么拿来用咯。


【知乎】活跃用户分布-饼图.jpg

这里从红色开始,逆时针依次是10天,一个月,三个月,半年,一年,两年,三年以上。
可以看出三个月内活跃用户大概占比30%,另外有30%用户近三年没登录过了。

专业分布词云

最后我们以一张词云结束本文,大伙可以看看自己专业在图中什么位置


【知乎】专业分布前200-词云.jpg

结语

截止目前抓取了 9433740 条数据。今天7小时抓了不到5k条数据,数据增长已经非常缓慢了。带宽占用有10M左右,说明还是在不停的爬取,只是爬到的重复率已经很高了。余下的用户可能在不同的一片森林里,与目前爬取数据没有交集,或者根本就是0关注;也有可能数据接近爬完了。目前程序占了6G内存。今晚再观察一下,如果增长速率还是如此缓慢,明天就把它停掉了~

想了解更多爬取心路历程 请看这篇

这是我第一次搞数据爬取,不足之处请各大神多多指导。另外关于数据分析,各位可以想想更多不同的维度,得更有多有趣的内容。结尾附上一条抓取的数据样本。

{
  "id": "0970f947b898ecc0ec035f9126dd4e08",
  "url_token": "excited-vczh",
  "name": "vczh",
  "use_default_avatar": false,
  "avatar_url": "https://pic1.zhimg.com/v2-1bea18837914ab5a40537d515ed3219c_is.jpg",
  "avatar_url_template": "https://pic1.zhimg.com/v2-1bea18837914ab5a40537d515ed3219c_{size}.jpg",
  "is_org": false,
  "type": "people",
  "url": "https://www.zhihu.com/people/excited-vczh",
  "user_type": "people",
  "headline": "专业造轮子,拉黑抢前排。gaclib.net",
  "is_active": 1,
  "description": "微博也看图(逃:<a href=\"https://link.zhihu.com/?target=http%3A//weibo.com/vczh\" class=\" external\" target=\"_blank\" rel=\"nofollow noreferrer\"><span class=\"invisible\">http://</span><span class=\"visible\">weibo.com/vczh</span><span class=\"invisible\"></span></a><br/>长期开发跨三大PC平台的GUI库<a href=\"https://link.zhihu.com/?target=http%3A//www.gaclib.net\" class=\" external\" target=\"_blank\" rel=\"nofollow noreferrer\"><span class=\"invisible\">http://www.</span><span class=\"visible\">gaclib.net</span><span class=\"invisible\"></span></a><br/>讨论QQ群:231200072(不闲聊)<br/>不再更新的技术博客:<a href=\"https://link.zhihu.com/?target=http%3A//www.cppblog.com/vczh\" class=\" external\" target=\"_blank\" rel=\"nofollow noreferrer\"><span class=\"invisible\">http://www.</span><span class=\"visible\">cppblog.com/vczh</span><span class=\"invisible\"></span></a>",
  "gender": 1,
  "is_advertiser": false,
  "vip_info": {
    "is_vip": false,
    "rename_days": "60"
  },
  "badge": [],
  "account_status": [],
  "message_thread_token": "4874924000",
  "allow_message": true,
  "is_following": false,
  "is_followed": false,
  "is_blocking": false,
  "is_blocked": false,
  "is_force_renamed": false,
  "follower_count": 797772,
  "following_count": 3059,
  "mutual_followees_count": 0,
  "answer_count": 22811,
  "question_count": 559,
  "commercial_question_count": 0,
  "articles_count": 128,
  "columns_count": 6,
  "favorite_count": 1,
  "favorited_count": 389697,
  "pins_count": 5244,
  "logs_count": 2845,
  "voteup_count": 2636286,
  "thanked_count": 278948,
  "hosted_live_count": 0,
  "participated_live_count": 10,
  "included_answers_count": 6,
  "included_articles_count": 2,
  "included_text": "编辑推荐和知乎日报",
  "following_columns_count": 103,
  "following_topic_count": 49,
  "following_question_count": 39070,
  "following_favlists_count": 11,
  "vote_to_count": 0,
  "vote_from_count": 0,
  "thank_to_count": 0,
  "thank_from_count": 0,
  "business": {
    "id": "19619368",
    "type": "topic",
    "url": "https://www.zhihu.com/topics/19619368",
    "name": "计算机软件",
    "avatar_url": "https://pic4.zhimg.com/e82bab09c_is.jpg"
  },
  "locations": [
    {
      "id": "19583552",
      "type": "topic",
      "url": "https://www.zhihu.com/topics/19583552",
      "name": "西雅图(Seattle)",
      "avatar_url": "https://pic1.zhimg.com/161f6ece791a4950ded3278fb74a2f9b_is.jpg"
    }
  ],
  "employments": [
    {
      "job": {
        "id": "19578588",
        "type": "topic",
        "url": "https://www.zhihu.com/topics/19578588",
        "name": "Developer",
        "avatar_url": "https://pic4.zhimg.com/e82bab09c_is.jpg"
      },
      "company": {
        "id": "19557307",
        "type": "topic",
        "url": "https://www.zhihu.com/topics/19557307",
        "name": "Microsoft Office",
        "avatar_url": "https://pic4.zhimg.com/v2-d3a9ee5ba3a2fe711087787c6169dcca_is.jpg"
      }
    }
  ],
  "educations": [
    {
      "school": {
        "id": "19599737",
        "type": "topic",
        "url": "https://www.zhihu.com/topics/19599737",
        "name": "华南理工大学",
        "avatar_url": "https://pic1.zhimg.com/4d0d193a9_is.jpg"
      },
      "major": {
        "id": "19590324",
        "type": "topic",
        "url": "https://www.zhihu.com/topics/19590324",
        "name": "软件学院",
        "avatar_url": "https://pic3.zhimg.com/v2-b9bfb60588338c348cc23576ad6243bb_is.jpg"
      }
    }
  ],
  "cover_url": "https://pic2.zhimg.com/v2-67b965aa94a92ed49b1a4205145b5cf4_r.jpg",
  "avatar_hue": "",
  "is_bind_sina": true,
  "sina_weibo_name": "GeniusVczh",
  "sina_weibo_url": "https://weibo.cn/u/1916825084",
  "is_privacy_protected": false
}

以上,完...

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269