爬取简书26万+用户信息:数据可视化

一、前言

简书上有哪些优质用户?有多少大V粉丝数上万,获赞数上万?小透明的自己能排到多少位?大V之间相互关注情况如何?签约作者有多少人......

我想要了解这些问题,于是便有了本文。

二、爬虫思路

《简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化》项目里获取的,贡献了1916篇热门文章的共计799名用户的ID,作为种子ID,爬取各自关注列表里的用户信息,再爬取关注者的关注者,如此几层下去,便能获取到几十万乃至上百万条用户信息及彼此的关注情况。

由于简书官方对数据有所保护和限制,仅能获取单个用户的900名关注者(粉丝亦然)。对于关注数小于900的自然能全部获取;而大于900的就只有不完整的数据。

在通过2-3层数据爬取后,共获得261277条用户信息,具体数据有:用户名、主页url、是否为签约作者、粉丝数、获赞数、关注数、文章数、总字数等等

三、数据可视化

1、获取的ID分布情况

爬取799个种子ID(记为第0层,图中由于数量级偏小,所以看不到出来柱形图的图案)各自的关注者,得到第1层47601条总ID数据(含重复ID),新增19526个净ID;再根据第1层新增的净ID,爬取其关注者,得到第2层1239366(约124w+)条总ID数据,新增189921个净ID;再根据第2层新增的净ID,爬取了部分ID的关注者,得到第3层391762条总ID数据,新增53677个净ID

由于时间限制,没有再继续爬取下去,仅获取了上述共261277条数据。由上图可知,虽然一层层的爬取关注者,总ID数在第2层便突破了百万级别,但新增的用户ID增长并没有那么快,这说明被关注的用户重复出现,他/她们获得了广泛的关注,因而可以视为较优质的用户。

2、26w+简书用户粉丝情况

2.1 金字塔图

有了26万多条数据后,先来看看这些用户各自都有多少粉丝,借此来看看每一个人大概的排名是多少。

绘制成金字塔图后可知,这26w+用户里:粉丝数大于10w+的有5人,依次为:@刘淼、@简黛玉、@彭小六、@简书播客、@江昭和,均是万中挑一的人物;其他各梯度人数看图即可,不再赘述。值得一提的是粉丝数10-100区间的人数占比最大,为40.38%,而非0粉或1粉的用户,这进一步说明了本次本次爬取的数据较为优质。与《爬取张佳玮138w+知乎关注者:数据可视化》一文中张佳玮138w+知乎关注者中0粉占比29.18%,1-10粉占比55.49%,两者相加用户数已超过116w+,两相对比,更能说明上述问题:

另外这26w+用户里0粉的有784人,论理本次爬取时能被爬取到的都起码有一个粉丝,要不然不符合上述爬取的思路,但这里却发现不仅有0粉的,甚至有十来个用户粉丝数为负数,不知道是不是简书的BUG,去他们的主页查看,发现确实显示的是负数,但是又明明有粉丝???

2.2 瀑布图

知道了各个梯度(区间)用户的数量和占比,自然也就能知道每个人的大致排名。以我自身为例,粉丝数480人,排名4140,为前1.6%。还有很大的努力空间。再将所有用户粉丝分布情况绘制成瀑布图,更能给所有奋笔疾书、努力写作和输出的人不断涨粉后跃迁、上升的直观感觉。

3、TOP 10系列

接下来再看看各种TOP 10的榜单:

3.1 粉丝数前十

全部用户平均粉丝数为79人。全靠下面的大V带飞。

1、刘淼:178262;2、简黛玉:177047;

3、彭小六:139994;4、简书播客:138836;

5、江昭和:133940;6、简叔:89629;

7、韩大爷的杂货铺:88845;8、Sir电影:88840;

9、饱醉豚:86540;10、我带爸爸看世界:77153;

3.2 获赞数前十

全部用户平均获赞数为102个。大V天天见。

1、彭小六:222734;2、韩大爷的杂货铺:131250;

3、简黛玉:124723;4、Sir电影:83485;

5、衷曲无闻:81205;6、怀左同学:80567;

7、剽悍一只猫:79558;8、安梳颜:74808;

9、顾一宸:69015;10、陶瓷兔子:66527;

3.3 关注数前十

活捉十只关注狂魔!全部用户平均关注数为25人。拖后腿系列

1、临川人:12878;2、桐子树下:10624;

3、阿立斯本:7807;4、陈三白:6651;

5、WEFG_jakerfenG:6174;6、欣悦生化:6168;

7、Athena79:5434;8、曾培然:5107;

9、有领uullnn:5086;10、MasterKang:5035;

3.4 文章数前十

所有用户平均文章数为14篇。刚好达标。

1、絕塵:2150;2、幸运的贝壳:1834;

3、孤鸟差鱼:1731;4、淡定之龍的傳人:1587;

5、Sir电影:1582;6、郭相麟:1455;

7、鸭梨山大哎:1364;8、炫彬:1360;

9、葡萄喃喃呓语:1354;10、军旗猎猎:1330;

3.5 总字数前十

所有用户平均总字数为16750。emmmmmm.

1、爱可可_爱生活:5953371;2、絕塵:4357012;

3、Sir电影:3948118;4、王邑尘:3566126;

5、Sting:3412810;6、诗之源:3337821;

7、优雅爱敌:2716884;8、柳志儒:2512482;

9、掘金官方:2483024;10、军旗猎猎:2429342;

3.6 获赞数/文章数前十

1、一棵花白:7517.5;2、冰冷钻戒:4650;

3、Gosmy:3917;4、该号已废:3751;

5、二十初仲夏的树:3616.85;6、米洛在波士顿:3483;

7、Gibson:2973;8、Mr楠先生:2540;

9、南调北征:2419;10、她好酷的:2391;

4、126名签约作者

很多人都以成为签约作者作为自己写作努力的方向,那么简书到底有多少名签约作者呢?在这26w+较优质用户里,共有126人的主页上明确地挂有“签约作者”的标签。为什么这么说呢,是签约作者就是,不是就不是,难道主页上没有标签的用户也可能是“签约作者”不成?!

这个好像还真的有可能。具体有待探究。后续会继续研究下“签约作者”这个群体。目前已经另外爬取@签约作者文章合集专题里的3141篇文章,发现该专题里签约作者依旧小于150人,其中不少人目前主页上并没有显示标签。去掉和上面126名重复的用户后也不到200人,因此推测简书总共的签约作者不到200人,虽然根据爬取的数据显示,很多人的粉丝数、喜欢数、文章数等都已经符合申请要求了。

四、小结

1、后续会继续研究下“签约作者”这一群体;

2、学习下用D3.js怎么绘制大V们相互关注的情况;

3、同样的会用《爬取张佳玮138w+知乎关注者:数据可视化》中获取的较优质的用户ID作为种子ID,用本文相同的爬取思路,去获取更多知乎大V的数据。

推荐阅读更多精彩内容