Python爬虫学习:简书签约作者知多少?

这个周末用Python爬虫把简书上的签约作者信息、文章爬取了一遍,想对简书签约作者有一个整体了解,并进行数据分析,他们写作的频度是怎样的,写作的类型有哪些?他们最值得学习的地方有哪些?

下一个会是你吗?

一、爬取哪些信息?

爬取的信息包括爬出所有签约作者主页(latest_articles),签约作者发表的文章篇数、字数、粉丝数,收获的喜欢;他们在简书上发表第一篇文章的时间,在简书上写作的时间天数。

“首页热门”,“七日热门”,“三十日热门”文章中签约作者文章的占比数。

二 、爬虫从哪里开始?

简书上没有专门页面推荐展示“简书签约作者”,必须设置一个入口去爬取这些信息。我能找到一个专题是《简书签约作者新春大拜年》,这是2016年春节收录了10位简书签约作者的新春大拜年文章,显然现在不止这10位。

一开始设想的方案,是从“三十日热门”中的一篇文章开始,抓取这篇文章的“打赏支持”、“喜欢”和“评论”的用户,再顺着作者粉丝(或关注)往下爬取。但看过几篇文章,这种方法马上被否掉,因为打赏、喜欢和评论以及粉丝99%的都是一般特征用户(即读者,很少发表文章),相当于从简书大量用户中捞出“签约作者”,效率太低,如果要做简书一般用户的分析,这种方案可以考虑。

我把目标转向了“首页热门”,“七日热门”,“三十日热门”这个几栏目。既然简书没有专门的推荐简书签约作者,那他们必须靠文章来进行展现。如果把这几个栏目中文章的签约作者都抓取下来,应该能找到95%以上的简书签约作者。

这几个栏目首屏都是显示20条数据,页面上没有分页,只有一个“点击查看更多”,在代码找到分页显示的url,并有page参数。但在url地址栏试了一下,发现只修改page并不能获得正确的页面,而且也不知道总页数。

换一个思路,通过递归方法抓取页面的“点击查看更多”的url,直到页面上没有“点击查看更多为止”,这样首页热点是99条数据。拿到每篇文章作者的url。

递归调用获取“更多”url

获取到这个栏目文章作者的主页链接,再到用户主页爬取信息,判断是不是简书签约作者,如果是,抓取用户相关信息,发表的文章相关信息。

在作者页面通过看源代码,找到文章分页url,定位于最后一页最后一篇文章,抓取到作得发表第一篇文章的时间,第一篇文章的阅读数的评论数,计算出在简书上写作的天数。

这个分页url是有效的!

三、如何爬取到完整的数据?

这次我把爬取的数据写成CSV文件,方便查看、做数据分析。把“首页热门”(top/daily),“七日热门”(top/weekly),“三十日热门”(top/monthly)数据放在一起,去重后,找到的简书签约作者记录是32条。

5/15《首页热门》上简书签约作者的数据

这种方式爬取的数据量不大,找到的信息比手动搜索专题收录的数据多了一倍多。我随手翻阅了一下“成为简书签约作者”的文章,一篇文章中写道,她是第46位简书签约作者。我意识到爬取的数据量还不全。这时,第一栏数据,关注数,引起我的注意,原来以为是分析中最没有用的一个数据,我看了一下两位作者,发现,简书签约作者之间互关的比较多,从这“关注”数据中应该可以再抓取到一些数据。

就马上增加一个方法,把签约作者的关注的用户再爬取一次找出签约作者,再经过数据去重,最终得到63位简书签约作者的信息。

如果猜测一下的话,“热门”中抓取到的数据应该是“简书签约作者”中的活跃用户或新晋作者,互关数据中抓取的数据应该是加入时间靠前的,写作方向比较偏一点的。更多数据分析,另文详述,更有一些好玩有趣数据,以及怎样才能成为简书签约作者。

PyCharm 代码

总结

  1. 设计一个爬虫的入口很重要,关乎到数据抓取的效率。
  2. 对数据的查看过程中发现有效数据的隐藏点,再进行抓取。
  3. 这次仍然使用request,xpath,代码更熟练了一些。没有使用scrapy,主要是才刚刚开始,对于多数据的爬取处理不太熟悉。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容