搜索引擎的技术攻坚战,之爬虫!

2014年,一部名为《这就是搜索引擎:核心技术详解》的书,再次把“搜索”这一核心话题,带入公众视野。姑且抛开此书一版再版所折射的隐性魅力不言,正如书中所说,基于其所充当的互联网入口地位,及复杂的实现方式,“搜索引擎”都是目前互联网产品中最具技术含量的产品,即便不是唯一,至少也是其中之一。

而我们今天所要探讨的话题,正是围绕“爬虫抓取策略”所展开的爬虫相关简介,并借此带领我们身边的“老司机”,一起发现那些有可能被忽略掉的理论。

1.    一句话概括爬虫

“传输海量网页数据至本地,并形成数以亿计网页之镜像备份”的高效下载系统设计。

2.    通用爬虫框架流程

a.     精选部分网页链接地址作为种子URL,并将种子URL放入待抓取URL队列;

b.    从待抓取URL队列依次读取URL,并通过DNS将URL链接地址,转换为网站服务器对应的IP地址;

c.     将网站IP地址和网页相对路径名称交给网页下载器,下载页面内容;

d.    将下载后的网页所对应的URL放入已抓取URL队列,并将下载到本地的网页内容存储到页面库,等待后续处理;

e.     从刚下载的网页中抽取所有链接,并与已抓取URL队列做对比,检出未被抓取的URL链接放入待抓取URL队列,并重复新一轮抓取操作;

f.      循环到网页被尽数抓完,完整一轮完整抓取过程。

PS.动态抓取中的爬虫&与网页的相对关系

已下载网页集合:已被爬虫从互联网下载到本地进行索引的网页集合;

已过期网页集合:所对应互联网网页已做动态更新,却未及爬虫展开新一轮爬取的,已被下载到本地的网页集合;

待下载网页集合:处于待抓取URL队列中的网页集合;

可知网页集合:存在于已抓取网页或待抓取网页中的,未及爬取,但迟早会被爬虫通过链接关系发现,并进行抓取和索引的网页集合;

不可知网页集合:爬虫无法抓取到的网页集合;

3.    三种爬虫类型

a.     批量型爬虫

有着明确的抓取范围和目标,达到设定目标(特定数量网页或特定长度时间)即停止抓取的爬虫类型;

b.    增量型爬虫

持续不断地抓取网页,并对已抓取网页进行定期更新的爬虫类型;

c.     垂直型爬虫

只抓取特定行业网页或主题内容的爬虫类型

4.    优秀爬虫需满足的条件

a.     高性能

单位时间尽可能抓取更多的网页;

b.    可扩展

可通过增加抓取服务器和爬虫数量的方式,较为容易地解决缩短抓取周期的问题;

c.     健壮性

能正确应对诸如网页HTML编码不规范、服务器突然死机、爬虫陷阱等异常情况,避免工作中断,或中断后能轻易恢复之前抓取到的数据;

d.    友好性

保护网站的部分私密性(避抓爬虫禁抓协议下的网页,避抓网页禁抓标记下的部分内容),并减少被抓取网站的网络负载;

5.    爬虫抓取策略

爬虫抓取的总原则:优先选择重要网页进行抓取(PageRank是评价网页重要性的常用标准),确定待抓取URL队列则是技术关键。

根据URL优先排序的不同确定方法,划分4种爬虫抓取策略如下:

a.     宽度优先遍历策略

含义: 一种通过“将新下载网页包含的链接,直接机械地追加到待抓取URL队列末尾”的方式,实现合理安排URL下载顺序的抓取策略。

特点:简单直观、历史悠久、功能强悍,对比各种抓取策略的基准策略。

优缺点:可基本保证按网页重要性排序待抓取URL列表,效果很好。

b.    非完全PageRank策略

PageRank:一种著名的,能确定网页重要性的,全局性的,链接分析算法。

非完全PageRank策略: 一种“在不完整的互联网页面子集中,计算PageRank,形成待抓取URL队列”的爬虫抓取策略,即连带已下载网页和待抓取URL队列中的URL一起,组成网页集合,并在所组成的网页集合中进行PageRank计算,并按照PageRank得分从高到低的顺序,将待抓取URL队列重排,形成新的待抓取URL队列,这样一种抓取策略。

l  非完全PageRank,常采用“每当新下载网页攒够K个,将所有下载页面重新进行一次非完全PageRank计算”的方法进行;

l  在新一轮非完全PageRank计算未展开前,赋予新抽取出来的还没有PageRank值的网页以临时PageRank值,以跟待抓取URL列表形成大小比较,考虑到新抽取网页需要优先抓取的需要。

优缺点:争论不一

c.    OCIP策略

含义:OCIP,在线页面重要性计算。通过“算法开始前,给予所有互联网页面相同现金(cash), 每下载一个页面,便将其对应的现金均分给页内所包含的页面链接,以清空已下载页面的现金值。待抓取URL队列中的网页,均按照现金由多到少排序,并实现顺次抓取”

效果:一种较好的重要性衡量策略,效果优于宽度优先遍历策略。

优缺点:不需迭代,计算速度快,适于实时计算。

d.    大站优先策略

含义:优先下载大型网站,即以网站为单位来衡量网页重要性,对于待抓取URL队列中的网页,根据所属网站归类,如果哪个网站等待下载的页面最多,则优先下载这些链接。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,050评论 4 370
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,538评论 1 306
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 111,673评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,622评论 0 218
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,047评论 3 295
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,974评论 1 224
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,129评论 2 317
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,893评论 0 209
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,654评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,828评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,297评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,619评论 3 262
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,326评论 3 243
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,176评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,975评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,118评论 2 285
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,909评论 2 278

推荐阅读更多精彩内容