Web Crawler with Python - 09.怎样通过爬虫找出我和轮子哥、四万姐之间的最短关系(转)

作者:xlzd

链接:https://zhuanlan.zhihu.com/p/20546546

来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

最近这段时间事情比较多,很久没有更新博客了,今天这将是爬虫入门的最后一篇,新年之后,我将会更新一系列Python炫技然并卵的博客。今天,我将要通过代码找出知乎上任意两个人之间的最短关系(六度分隔理论的实践~)。

首先考虑这个问题的解决方案以及与爬虫的关系吧。一个比较可行的方案是,抓取知乎所有人的关注列表及被关注列表,然后通过一个有向图连接起来,找两个人的最短关联关系,实际上就是就图中两个节点的最短路径。考虑到我希望得到的是仰望型的关系图,即从一个较有名气的人的关注列表出发,能否在他的关注链上游找到自己(举例:我关注轮子哥很正常,但是轮子哥没有关注我,不过他的关注链上有我,我希望借此找到这个链上的所有人)。所以,这个问题还可以得到进一步的简化:只是抓取每个人的关注列表而忽略粉丝列表,存储下这个人(Node)及与关注列表每个人的对应关系(Relationship)。

那么,对应的实现应该如何解决呢?首先要知道知乎的用户很大,即使刚才的方案干掉了所以没有任何人关注的用户,但是有至少一个人关注的用户依旧很多,所以不建议自己维护这样一个很大的图,Graph Database是一个不错的选择,这篇博客中,我将使用neo4j来存储节点及其关系。而对应的用户及抓取列表,将使用Mongo存储。

既然找到了解决方案,那么上手开始吧。关于neo4j的安装及基本使用,以及cypher(neo4j使用的操作语法)的入门介绍,这里将一笔略过,如果你没有neo4j的使用经验,请读者自行去neo4j的官网阅读学习。

现在,我们将任务进一步细化:

1. 从知乎的某个用户x开始,得到他的关注列表

2. 将x与其关注列表中的每个人each建立关系: x-FOLLOWING(关系)->each

3. 将关注列表还没有抓取关注列表的用户放入Mongo中

4. 如果Mongo中还有未抓取关注列表的人,重复1

然后,对于需要查询某两个人之间的最短路径,只需要在neo4j的web终端里使用对应的cypher语句即可。当然,后续我将会实现一个网页形式的界面以供使用(py2neo+d3.js)。

分析部分至此结束,这里并不打算一步一步写出代码,不过会在最后提供源码链接以供参考。具体的代码部分,需要自己完成的是,分析知乎获取关注列表的API及其参数,然后按照上面分析的步骤一步一步编写代码即可。值得注意的是,知乎上每个人的昵称、个性域名都是可变的,所以不可作为区分不同用户的唯一索引,知乎对应每个人都有一个user_hash字段,这才是标识每个人的真正ID。

最后,在这里贴两张图片吧,分别对应着轮子哥的关注链上我的位置和四万姐的关注列表上我的位置:

由图容易看出,轮子哥与我只间隔了一个人,而四万姐与我之间间隔了最少两个人。

小节

这篇博客我们接触了一种新的数据库——Graph Database,这里使用的是neo4j作为实际使用,不过希望你可以举一反三。希望你可以在自己独立完成,在遇到问题自己独立解决或者尽可能独立搞定,然后再参考后面的源码。下载源码请点击这里

总结

关于爬虫入门部分的博客就写到这里了,但是写爬虫到这一步,你仅仅可以抓取那些不怎么防你、页面不算复杂的网站,后面还有很多需要自己自学的知识。博客中贴代码的部分由多变少,而整理思路,思考如何做的部分的比重在逐步增加,因为我觉得思路更加重要,清晰的思路可以帮助你在遇到一个崭新的问题时有足够的想法去解决它。希望你可以从中得到一些帮助,也希望你在后续过程中持之以恒,不断前进。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容