用Node.js实现一个DHT网络爬虫,一步一步完成一个BT搜索引擎(一)

传统的Bittorrent服务

传统的BT服务是由两部份组成的,tracker服务和p2p服务,通过前者用户可以知道谁拥有资源,后者是通过前者向拥有资源的用户发起下载。

Trackerless

目前在大多数国家,提供tracker服务都是非法的。最终有一天tracker服务会像edonkey的服务一样消失。trackerless的需求于是变得迫切起来。

DHT网络

DHT网络就是解决trackerless目前运用最广的方案,核心算法叫Kademlia,也就是所谓的异或算法。在Bittorrent中它叫DHT,在edonkey中它叫Kad,两者算法是一至的,但细节不同,前者更注重文件传输,后者更在意文件分享。

什么是NodeID和InfoHash

在DHT网络中,所有的用户和资源都有一个20bytes的ID,用户叫NodeID,资源叫InfoHash。NodeID通常是根据用户的IP端口计算得出的(但在DHT爬虫中可以随机获取一个20bytes的串,无关紧要),InfoHash是根据torrent种子文件的info字段,用hash sha1计算得出的。在DHT协议中,

NodeID可以通过以下代码简单的得到

const nodeID = crypto.createHash('sha1').update(Math.random()*100000).digest()

通过种子文件计算得到InfoHash的代码

const infoHash = crypto.createHash('sha1').update(bencode.decode('file.torrent').info).digest()

得到可传播的magnet链接就简单了

const magnet = `magnet:?xt=urn:btih:${infoHash.toString('hex').toUpperCase()}`

可见DHT网络中用户,资源都是无区别的,所以就有了xor算法之说。NodeID之间可以用异或计算出距离,NodeID和InfoHash之间同样可以计算距离,InfoHash之间也可以计算距离。计算方法很简单,把infoHash或NodeID换为数值,然后按位异或,就得到了距离。这很关键,在下面的Routing table中会运用到。异或算法得到的距离的结果虽然不是物理上的距离关系,但是在数学逻辑上是自洽的。

DHT协议

共4条

ping

find_node

get_peers (在edonkey kad中这叫find_value)

announce_peer

ping

是用检查Node状态,用以更新Routing table

find_node

通常是用来初始化Routing table,因为一开始,你在Routing table是空的,需要通过向公共节点发送find_node来填充之。

get_peers

是当用户要下载种子资源时向其它Node发起的。如果Node有该资源,则返回资源的下载端口以供对方下载,如果没有,则根据异或算法在自己的Routing table中寻找离资源最近的Node返回给对方,对方如此递归发送get_peers,直到找到资源为止。

announce_peer

当用用户下载完种子资源,通过种子开始下载时(这里下载行为通常会回倒为tracker式下载,但也有有种子文件是有Nodes字段的,可以通过纯p2p下载)通知所有曾经get_peers咨询过的node。announce_peer是爬虫的关键,当下载开始,用户就会通知,于是就得到了一个有效的InfoHash。

Routing table

每个Node都要维护一个Routing table以存放Node信息。 Routing table的容器为桶,称为K桶,桶的容量为8(kad中为20)。桶的数量是可以增加的,当桶的个数超过8时,桶就会平均的分裂。桶中的保存的就是Node信息,包含NodeID、IP和端口。 当Node接受到任意一条协议时,都会试图向Routing table中插入对方的NodeID,插入Rule如下:

通过异或算法计算距离,应该往哪个桶插入。

如果这个桶是不满的,则插入成功。

如果这个桶是满的,并且这个桶中不包含自己,则插入失败。反之则分裂这个桶,并且递归的再尝试插入。

理解Routing table是DHT爬虫的关键,可以参考协议文档,实现的网站看这里Engiy磁力搜索,BT搜索

爬虫的关键

通过上述基础知识,可以得到以下结论:

尽量认识更多的Node,这点可以通过find_node来实现。

尽量让自己插入到对方的Routing table中,只有这样,当对方下载资源时才会优先通知你。

插入对方的Routing table成功的关键在于自己的NodeID离对方的NodeID足够的近

爬虫只无需现实所有的协议,只需要实现find_node(query),get_peers(response),announce_peer(response),ping(response)。

Engiy的开源简化Node.js版DHTSpider可以参考,有疑问可以github上给我留言。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容