论文整理(1)社交网络影响力

社会网络分析理论:

在社会网络[63]由人类学家Barnes最早提出的概念,他在社会网络的分析基础上统地研究挪威一个小渔村的跨亲缘与阶级的关系。在社会网络分析中,存在一些经典的理论。这些理论主要包括:六度分割理论、弱关系理论、150法则、小世界网络理论、马太效应等。基于社会网络有关的研究方向和内容,在不同的领域着发挥着各自的作用,例如,社会影响力分析,社区发现,信息传播模型,链接预测,基于社会网络的推荐。

150法则是指一个人能保持稳定社交关系的人数上限通常为150人。1929年由英国罗宾•邓巴教授(Robin Dunbar)提出了经典的”150定律”理论,该定律同时也被称为“邓巴数字”[64]。这个定律在我们的实际日常生活中的应用是相当普遍的,SIM卡中只能存储150个联系人的电话,微软的MSN中也只可以最多把150位联系人的信息添加到自己的名单中[64]等等。

小世界网络是一种具有特殊结构的复杂网络,在这种网络中大部份的节点是不相邻的,但绝大部份节点之间是连通的且距离很短。六度分割理论也是小世界网络理论的一种体现。在多数现实世界的社会网络中,尽管网络中的节点数量巨大,网络中相邻的节点相对较少,但每两个节点间往往只需要很短的距离便能连通。

六度分割就是指一个人与其他任何一个人之间建立起联系,最多都只需要经过六个人。所以,即便邓巴数字告诉我们,我们是能力上维持一个特别大的社交圈的,但是六度分割理论却可以告诉我们,通过我们现有的社交人脉圈以及网络可以无限扩张我们的人脉圈,在需要的时候都能够和地球中想要联系的任何人取得联系。

弱关系理论弱关系(Weak Tie)是指需要较少或不需要情感联系的人们之间的社会联系,这种联系几乎不需要耗费个人的时间或精力来维系,但这种联系却很有作用。美国社会学家Mark Granovetter在研宄人们在求职过程中如何获取工作信息时发现[65],由家人、好友等构成的强关系在获取工作信息过程中起到的作用很有限,而那些关系较疏远的同学、前同事等反而能够提供更加有用的求职信息。

马太效应可以理解为达尔文进化论中适者生存的理念。在社交网络的发展过程如同生物进化的过程,存在强者越强、弱者越弱的现象。也就是说,在社交网络中越是处于网络核心的节点很大可能会变来越核心,而那些处于社交网络中边缘地带的节点或许会越来越不重要甚至直至消失。那些在社交网络中相比其他节点拥有更大影响力的节点,其带给该网络的影响也要比那些拥有弱影响力的节点所带来的影响要强。

从不同角度探索节点影响力挖掘算法:

1.基于邻节点中心性的方法。这类方法最简单最直观,它根据节点在网络中的位置来评估节点的影响力。度中心性[13]考察网络中节点的直接邻居数目,半局部中心性[14]考察网络中节点四层邻居的信息,ClusterRank[15]同时考虑了网络中节点的度和聚类系数。

2.基于路径中心性的方法。这类方法考察了节点在控制信息流方面的能力,并刻画节点的重要性。这类方法包括子图中心性[16]、数中心性[17](一些演化算法包括:路由介数中心性[18],流介数中心性[19],连通介数中心性[20],随机游走介数中心性[21]等)及其他基于路径的挖掘方法。

3.迭代寻优排序方法。这类方法不仅考虑了网络中节点邻居的数量,并且考虑邻居质量对节点重要性的影响,包括了特征向量中心性[13],累积提名[22],PageRank算法[23]及其变种[24-32]。

4.基于节点位置的排序算法。这类方法最显著的特点是,算法并没有给出一个计算节点重要性的定义,而是通过确定节点在网络中的位置,以此来确定节点的重要程度。在网络核心位置的节点,其重要性就相对较高,相反的,若节点处于网络边缘,那么它的重要性就会比较低。基于节点位置的以及不同应用场景的推荐算法具有重要的研究意义[34-37]。

节点影响力评估方法:

在社交网络节点影响力的评估方法主要可以分为三类,基于静态统计量的评估方法、基于链接分析算法的评估方法,基于概率模型的评估方法。

众学者在静态统计量的方法上,结合不同社交网络中相关信息,借鉴链接分析法以及建立概率模型来评估节点影响力,对社交网络节点影响力可以做到更有效的评估[66]。

1)基于静态统计量度量方法

主要是通过网络中节点的一些静态属性特征来简单直接地体现节点的影响力,但面对社交网络中复杂信息以及不同平台,并不能有效地度量不同社交网络中节点影响力。如度中心性,主观认为节点的重要性取决于与其他节点连接数决定,即认为一个节点的邻居节点越多,影响力越大。在有向网络中,根据边的方向,分为入度和出度,在有权网络中,节点的度可以看作强度,即边的权重之和。度中心性刻画了节点的直接影响力,度中心性指标的特点是简单、直观、计算复杂度低,也具有一定合理性。

但针对不同平台的网络结构中,度中心性的影响力效果未必能达到目标效果,而且社交网络中用户间关系的建立具有一定的偶然性,而且不同的用户间的关系强度也不同。度中心性没有考虑了节点的最局部信息,虽然对影响力进行了直接描述,但是没有考虑周围节点处所位置以及更高阶邻居。众学者在静态统计量的方法上,结合不同社交网络中相关信息,借鉴链接分析法以及建立概率模型来评估节点影响力,对社交网络节点影响力可以做到更有效的评估[66-67]。

2)基于链接分析算法的方法

链接分析算法(Link Analysis)主要应用在万维网中用来评估网页的流行性。通过超链接,万维网中的网页连接成一个网络,同时这个网络也具备了小世界网络的特征,且微博平台中的关注和粉丝关系与网页的链入与链出十分相似,因此链接分析法的思想也被应用在了微博社交网络中节点影响力的评估中。经典的算法是PageRank[68]和HITS算法[69](Hyperlink-Induced Topic Search)。

PageRank算法模型,是Google在搜索引擎结果中对网站排名的核心算法,核心思想通过计算页面链接的数量和质量,来确定网站的重要性的粗略估计,即节点的得分取决于指向它的节点的数量和这些节点的本身得分。即有越多的优质节点指向某节点时它的得分越高。

HITS算法是由Jon Kleinberg于1997年提出的。HITS算法模型中,有两类节点,权威(Authority)节点,和枢纽(Hub)节点。权威节点在网络中具有高权威性,枢纽节点具有很个指向边的节点。通过计算网络中每个节点的Authority权威值和Hub枢纽值来寻找高权威性的节点。即求值过程是在迭代中计算Authority和Hub值,直到收敛状态。Hub值和Authority值计算公式。

通过多数研究者发现,将链接分析法结合社交网络特性可以更好的对用户影响力进行评估,由于技术的快速发展,社交网络的多变性,因此如何将社交网络中的复杂数据和用户行为与相关算法进行结合,仍是需要我们继续研究的方向。

3)基于概率模型的方法

主要是建立概率模型对节点影响力进行预测。这么多学者将用户影响力作为参数对社交网络中的节点用户行为建立概率模型,并根据社交网络中已有的用户数据求解概率模型,得出用户影响力。

文献[70]认为用户间影响力越大、被影响用户的活跃度和转发意愿越高,则其转发另一个用户的信息的概率越大,所以利用用户影响力、转发意愿和活跃度等构建转发概率模型。通过用户发布的tweet数量、转发的tweet数和用户的历史转发行为数据,计算出用户活跃度、转发意愿和转发概率,进而社交网络中用户影响力。

文献[71]在度量影响力时融合了用户发布信息的主题生成过程,认为兴趣相似或经常联系的用户间影响力较强,用户的行为受其朋友的影响也受其个人兴趣的影响。基于这些假设,结合文本信息和网络结构对LDA模型进行扩展,在用户发布信息的基础上建立模型,通过解模型计算得出用户间基于主题的影响力。

文献[72]认为转发概率同样可以体现用户间的影响力,根据用户间的关注关系。历史转发记录,利用贝叶斯模型预测用户间的转发概率。

文献[73]考虑了用户建立关注关系的原因,用户被关注可能是与关注者兴趣投,也可能受用户的影响力影响。将基于用户的主题建模和基于主题的影响力评估相结合,并在同一个生成模型中进行计算,提出基于LDA算法模型的扩展算法模型FLDA模型(Followship-LDA)。





[13] P. Bonacich. Factoring and weighting approaches to status scores and clique identification[J]. Journal of Mathematical Sociology, 1972, 2(1): 113-120

[14]D.Chen,L.Lü,M.S.Shang,etal.Identifyinginfluentialnodesincomplexnetworks[J]. Physica A, 2012, 391(4): 1777-1787

[15] D. B. Chen, H. Gao, L. Lü, et al. Identifying influential nodes in large-scale directed networks: The role of clustering[J]. PLoS One, 2013, 8(10): e77455

[16]E.Estrada, J.A. Rodriguez-Velazquez.Subgraphcentralityincomplexnetworks[J].Physical Review E, 2005, 71(5): 122-133

[17]L.C.Freeman.Asetofmeasuresofcentralitybasedonbetweenness[J].Sociometry,1977, 40(1): 35-41

[18] S. Dolev, Y. Elovici, R. Puzis. Routing betweenness centrality[J].Journal of the ACM, 2010, 57(4): 710-710

[19] Y. Gang,Z.Tao, H. Bo,etal. Efficientroutingoncomplexnetworks[J].PhysicalReviewE, 2005, 73(4): 46108

[20] E. Estrada, D. J. Higham, N. Hatano. Communicability betweenness in complex networks[J]. Physica A, 2009, 388(5): 764-774

[21]M.E.J.Newman.Ameasureofbetweennesscentralitybasedonrandomwalks[J].Social networks, 2005, 27(1): 39-54

[22]R.Poulin,M.C.Boily,B.R.Masse.Dynamicalsystemstodefinecentralityinsocial networks[J]. Social networks, 2000, 22(3): 187-200

[23] B. S. Brin, L. Page. The anatomy of a large scale hypertextual Web search engine[J]. Computer Networks & ISDN Systems, 1998, 30: 107-117

[24] P. Jomsri, S. Sanguansintukul, W. Choochaiwattana. CiteRank: combination similarity and static ranking with research paper searching[J]. International Journal of Internet Technology & Secured Transactions, 2011, 3(2): 161-177

[13][25]H.S.Bhat,B.Sims.InvestorRankandanInverseProblemforPageRank[D].California: University of California. 2012

[26] J. Weng, E. P. Lim, J. Jiang, et al. Twitterrank: finding topic-sensitive influential twitterers[C]. Third International Conference on Web Search & Web Data Mining, ACM, 2010, 261-270

[27]Y.B.Zhou,L.Lu,M.Li.Quantifyingtheinfluenceofscientistsandtheirpublications: distinguishingbetweenprestigeandpopularity[J].NewJournalofPhysics,2012,14(14): 33033-33049

[28] J. Xuan, H. Jiang, Z.Ren, et al. Developer prioritization in bug repositories[C]. International Conference on Software Engineering, 2012, 25-35

[29]Q.Li,T.Zhou,L.Lü,etal.IdentifyingInfluentialSpreadersbyWeightedLeaderRank[J]. Physica A, 2013, 404(24)47-55

[30] L. Lü, Y. C. Zhang, C H Yeung, et al.Leaders in social networks, the delicious case[J]. PLoS One, 2011, 6(6): e21202

[31]J.M.Kleinberg.Authoritativesourcesinahyperlinkedenvironment[J].Authoritative sources in a hyperlinked environmen, 1999, 46(5): 604-632

[32]R.Lempel,S.Moran.Thestochasticapproachforlink-structureanalysis(SALSA)andthe TKC effect[J]. Computer Networks, 2000, 33(2): 387-401

[33]T.Martin,X.Zhang,M.E.J.Newman.Localizationandcentralityinnetworks[J].Physical Review E, 2014, 90(5): 052808

[34] A. Banerjee, A. G. Chandrasekhar, E. Duflo, et al. Gossip: Identifying central individuals in a social network[R]. National Bureau of Economic Research, 2014.

[35]S.Ji,L.Lu,C.H.Yeung,etal.Effectivespreadingfrommultipleleadersidentifiedby percolation in social networks[J]. arXiv preprint arXiv:1508.04294, 2015.

[36] S. Y. Tan, J. Wu, L. Lü, et al. Efficient network disintegration under incomplete information: the comic effect of link prediction[J]. Scientific Reports, 2016, 6.

[37]任晓龙,吕琳媛.网络重要节点排序方法综述[J].科学通报, 2014,59(13): 1175-1197

[63]贝克,晓冬.社会资本制胜:如何挖掘个人与企业网络中的隐性资源[M].上海交通大学出版社,2002.

[64]天涯.六度分隔理论和150法则[EB/OL].http://blog.sina.com.cn/s/blog_62bae1640100|5f3.html.[2010-07-14].

[65]Granovetter M S.The Strength of Weak Ties[J]. American journal of sociology, 1973: 1360-1380.

[66]王梓.社交网络中节点影响力评估算法研究[D].北京邮电大学, 2014.

[67] Meeyoung Cha, Hamed Haddadi,Fabricio Benevenutoets. Measuring User Influence in Twitter: The Million Follower Fallacy[C]. Proceedings of the 4th International AAAI Conference on Weblogs and Social Media (ICWSM),2010:10-17

[3][68]  Page, Lawrence, Brin, et al. The PageRank citation ranking[C]// BringingOrder to the Web. Stanford InfoLab. 1998: 1-14.

[4][69]Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM, 1999, 46(5): 604-632.

[70]Zibin Yin, Ya Zhang. Measuring Pair-Wise Social Influence inMicroblog[C], 2012 ASE/IEEE International Conference on SocialComputing and 2012 ASE/IEEE International Conference on Privacy,Security, Risk and Trust, 2012: 502-507.

[71]Lu Liu, Jie Tang, Jiawei Han, Meng Jiang, Shiqiang Yang. Mining topic-level influence in heterogeneous networks[C]. Proceedings of the 19th ACMinternational conference on information and knowledge management, 2010: 199-208.

[72] Qianni Deng, Yunjing Dai. How Your Friends Influence You: Quantifying Pairwise Influences on Twitter[C], International Conference on Cloud and Service Computing, 2012:185-192.

[73] Bi, Bin, et al. Scalable Topic-Specific Influence Analysis on Microblogs[C], Proceedings of the 7th ACM international conference on Web search and data mining,2014: 513-522.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,924评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,902评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,716评论 0 239
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,783评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,166评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,510评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,784评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,476评论 0 196
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,196评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,459评论 2 243
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,978评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,321评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,964评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,046评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,803评论 0 193
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,530评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,420评论 2 265

推荐阅读更多精彩内容