大数据经典算法解析(6)一PageRank算法

姓名:崔升    学号:14020120005

转载自:http://www.cnblogs.com/en-heng/p/5173704.html

【嵌牛导读】:

 PageRank是Sergey Brin与Larry Page于1998年在WWW7会议上提出来的,用来解决链接分析中网页 排名的问题。

【嵌牛鼻子】:分析及解决网页排名问题的著名算法

【嵌牛提问】:PageRank是一种怎么的算法,其如何解决链接分析的网页排名问题呢?

【嵌牛正文】:

 1. 引言

在衡量一个网页的排名,直觉告诉我们:

当一个网页被更多网页所链接时,其排名会越靠前;

排名高的网页应具有更大的表决权,即当一个网页被排名高的网页所链接时,其重要性也应对应提高。

对于这两个直觉,PageRank算法所建立的模型非常简单:一个网页的排名等于所有链接到该网页的网页的加权排名之和:

PRi=∑(j,i)∈EPRjOj(1)(1)PRi=∑(j,i)∈EPRjOj

PRiPRi表示第ii个网页的PageRank值,用以衡量每一个网页的排名;若排名越高,则其PageRank值越大。网页之间的链接关系可以表示成一个有向图G=(V,E)G=(V,E),边(j,i)(j,i)代表了网页jj链接到了网页ii;OjOj为网页jj的出度,也可看作网页jj的外链数( the number of out-links)。

假定P=(PR1,PR2,⋯,PRn)TP=(PR1,PR2,⋯,PRn)T为n维PageRank值向量,AA为有向图GG所对应的转移矩阵,

Aij={1Oi0if(i,j)∈EotherwiseAij={1Oiif(i,j)∈E0otherwise

nn个等式(1)(1)可改写为矩阵相乘:

P=ATP(2)(2)P=ATP

但是,为了获得某个网页的排名,而需要知道其他网页的排名,这不就等同于“是先有鸡还是先有蛋”的问题了么?幸运的是,PageRank采用power iteration方法破解了这个问题怪圈。欲知详情,请看下节分解。

2. 求解

为了对上述及以下求解过程有个直观的了解,我们先来看一个例子,网页链接关系图如下图所示:


那么,矩阵AA即为


所谓power iteration,是指先给定一个PP的初始值P0P0,然后通过多轮迭代求解:

Pk=ATPk−1Pk=ATPk−1

最后收敛于||Pk−Pk−1||<ξ||Pk−Pk−1||<ξ,即差别小于某个阈值。我们发现式子(2)(2)为一个特征方程(characteristic equation),并且解PP是当特征值(eigenvalue)为11时的特征向量(eigenvector)。为了满足(2)(2)是有解的,则矩阵AA应满足如下三个性质:

stochastic matrix,则行至少存在一个非零值,即必须存在一个外链接(没有外链接的网页被称为dangling pages);

不可约(irreducible),即矩阵AA所对应的有向图GG必须是强连通的,对于任意两个节点u,v∈Vu,v∈V,存在一个从uu到vv的路径;

非周期性(aperiodic),即每个节点存在自回路。

显然,一般情况下矩阵AA这三个性质均不满足。为了满足性质stochastic matrix,可以把全为0的行替换为e/ne/n,其中ee为单位向量;同时为了满足性质不可约、非周期,需要做平滑处理:

P=((1−d)En+dAT)P=((1−d)En+dAT)

其中,dd为 damping factor,常置为0与1之间的一个常数;EE为单位阵。那么,式子(1)(1)被改写为

PRi=(1−d)+d∑(j,i)∈EPRjOjPRi=(1−d)+d∑(j,i)∈EPRjOj

3. 参考资料

[1] Bing Liu and Philip S. Yu, "The Top Ten Algorithms in Data Mining" Chapter 6.

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,710评论 4 376
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,839评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,295评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,776评论 0 223
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,198评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,074评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,200评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,986评论 0 214
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,733评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,877评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,348评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,675评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,393评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,209评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,212评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,003评论 2 280

推荐阅读更多精彩内容