关键点挖掘

关键点挖掘(一)

一:什么是关键点挖掘

1.脆弱的互联网

  • 假如删除2%top节点,例如百度、腾讯等,很多其他的节点将无法使用。

2.高效脆弱的电网

  • 相互连通提高了效率,降低成本,一旦出现问题就会在系统中蔓延开来。
    共同的特点(网络):
  • 很多个体,有些个体更加重要
  • 个体之间相互联系

3.社交网络

普通个体和微博大号

4.合作网络

当科学家共同写一篇论文,或者写一本书。通过网络连接,找出哪些科学家有更大的影响力。

5.交通网络

火车线路,飞机线路,回家线路,比如通过研究飞机网络得出城市的重要性

6.金融投资网络

企业,银行,等之间的投资合作关系,有点像电力系统,其中有一个企业发生经济问题,就会转嫁给其他节点。有助于预测金融风险和预测金融危机发生。

二:关键点挖掘基本术语和应用场景

节点的重要性指标(中心性指标):

    基于邻居节点的结构化指标;基于路径的规划指标;基于迭代寻优的中心化指标;基于结点移除和收缩的中心化指标。

典型的应用场景:

  • 识别网络中的超级传播者
  • 预测重要的蛋白质
  • 衡量学术的影响力
  • 检测金融风险
  • 预测职业生涯
  • 预测软件故障

关键点挖掘(二):基于邻居节点的结构化指标

认识网络

  • 节点
    人,企业,动物,蛋白质等

  • 节点之间的关系
    有方向(如投资)
    无方向(如合作)
  • 节点的度
    和节点相连的数目
  • 节点的一般规律
    社交网络呈现幂律分布,表示大部分用户的度都非常小,但存在非常大的节点,数目比较小。网络中节点的度分布是不均匀的
  • 遇到的问题:有可能邻居的传播能力比较大
  • 问题转化:一个节点有多少个邻居转化为一个节点有多少个高质量的邻居,H指数来衡量高质量的大小

H指数

  • 例子:学者A发表100篇文章,学者B发表50篇,然而学者B论文的引用次数更多,最终学者B的学术影响力更大。
  • 定义:一位学者的H指数为h,当且仅当他最多有h篇“引用次数不小于h的文章”
  • 定义算子:y=H(x1,x2...xn)
  • 于是节点v的H的指标:v=H(k1,k2...ki)
  • 一个节点的H指标为h,当且仅当当他最多有h个“邻居数目不小于h的邻居”
    H家族
    节点的度定义为0阶H指数 h=k
    节点的一阶H指数上面的公式
    节点的n阶H指数
    当n无穷大,节点的n阶H指数就会收敛到核数

核数

把网络中度为一的节点删除掉,记住k1
把网络中度为二的节点全部删除掉,记为k2
把网络中度为三的节点全部删除掉,记为k3
这个时候网络中没有节点了,就说明该网络的核数为三,节点在k3的节点越重要
——》k壳分解,剥洋葱法
应用:信息传播
选一个节点作为信息源
信息沿网络连边进行传播,信息源核数大传播的范围更广


image.png

核数越大传播越广

聚类系数

邻居都紧密的连在一起,信息多次传播,聚类高,只在小圈子传播,不利于广度传播


image.png

聚类系数,邻居有多少连接除去最大连接


image.png

社团:社团内部相互全连接

假如传播多个信息源,分别把信息源放到不同的社团内部去,就要考虑社团的数目

  • 社团的数目
    并不是总是有效,假如社团不明显


    image.png

关键点挖掘(三):基于路径的结构化指标

路径:

完全图:每两个节点都存在连边。
节点的序列就是从一个节点到另外一个节点的路径,尝尝考虑最短的路径

求最短路径算法

image.png

离心率:最大距离

接近中心性


image.png

介数中心性:节点在最短路径中的重要程度。

任意两个社团最短路径都会经过这个节点,那么这个节点就比较重要。比较耗时


红点

image.png

邻接矩阵A

是对称矩阵,行相加等于节点的度。矩阵乘法AA表示路径为2的路径数目。AA*A表示距离为3的路径数目

katz中心性:考虑全部路径

image.png

子图中心性:节点从自己出发,再回到自己的路径数目。

image.png

关键点挖掘(四):基于迭代寻优的中心化指标

思路:一个节点的重要性决定于邻居的重要性
不同的算法的不通电在于邻居节点的作用方式不同,有多大程度的影响

特征向量中心性:一个节点的中心性正比于他的邻居的中心性之和。

存在的问题1:大度节点会显著自我加强。
解决办法1:无回溯矩阵。
存在的问题2:收敛速度慢
解决办法:累计提名
特征向量中心性


image.png

image.png

无回溯矩阵:

保证不能重复计算。导致复杂性比较高


image.png

加上无回溯矩阵后的差异


image.png

算法:pagerank

特征向量中心性的变种,为了网页质量的排名
基本思想:一个网页越重要,会被更多重要的网页建立链接。
背景01:随机游走
从迷宫乱闯到互联网冲浪
迭代过程
从随机游走到pagerank
引入随机跳转,加入经验值


随机游走到pagerank

leaderrank为了解决陷阱问题

  • 引入超节点


HITS算法

网页的hub属性和authority属性
一个authority页面会被很多高质量hub质量所指向
一个高质量hub(百度)会指向很多高质量antuority页面
每次迭代需要进行归一化,要不然不会收敛。



image.png

关键点挖掘(五):基于节点的移除和压缩的中心化指标

连通性敏感性的方法

  • 最大连通集团的规模
  • 连通集团的数目
  • 节点之间的平均距离
    被删除的节点与其他节点之间的距离变化
    被删除节点之间的距离变化
    节点被删除后,剩余节点之间的距离变化。
  • 稳定性敏感的方法
    一个节点越重要,删除后对网络的损害越强

残余接近中心性

image.png

不相交路径


image.png

不同享任何一个中间的节点。

基于节点收缩的方法

将一个节点和他的邻点收缩为一个新的节点
更好凝缩在一起

怎么度量凝聚度?

节点的数目乘以平局距离的导数


image.png

凝聚程度的变化


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 2.4评价指标 2.4.1AUC ROC曲线下的面积。信号探测理论中,ROC曲线用来评价某种分类器的分类效果。这种...
    穿靴子的M阅读 8,086评论 1 5
  • 用亚线性查询复杂度来近似局部PageRank; 成本和效益之间的相互作用触发了非平凡的疫苗接种; 动态网络上的权力...
    ComplexLY阅读 781评论 0 51
  • 在线社会网络的中观分析-负链接的作用; 社会网络结构预测身心健康; 复杂网络的熵和图能量; 使用生成对抗网络进行图...
    ComplexLY阅读 1,227评论 0 49
  • 前言 其实读完斯坦福的这本《互联网大规模数据挖掘》,让我感觉到,什么是人工智能?人工智能就是更高层次的数据挖掘。机...
    我偏笑_NSNirvana阅读 12,179评论 1 23
  • 社会网络分析理论: 在社会网络[63]由人类学家Barnes最早提出的概念,他在社会网络的分析基础上统地研究挪威一...
    Arya鑫阅读 3,338评论 1 4