02 聚类算法 - 相似度距离公式、维度灾难

聚类就是对大量未知标注的数据集,按照数据内部存在的数据特征将数据集划分为多个不同的类别,使类别内的数据比较相似类别之间的数据相似度比较小

聚类算法的重点是计算样本项之间的相似度,有时候也称为样本间的距离。


PS: 补充一个维度灾难的概念

数据维度高,数据量大,这种时候样本在空间中比较密集,这种情况不太好划分。只有当数据相对比较松散的时候,才能做到有效的聚类分析。

维度高,数据量大的时候人工看就要看半天。

用几何来理解,1维空间可以解释100%的数据。2维空间是一个正方形,能解释的数据可能只是正方形中的一个圆,其他部分解释不到。3维空间是一个正方体,能解释的数据是一个球体。在2维中不能解释的数据是正方形靠近四个角附近的区域,在3维中不能解释的是靠近正方体8个顶点附近的体积。随着维度的增大,不能解释的量也越来越大(聚集在超矩形体的顶点附近),当维度越接近无穷维的时候,分类的结果自然就差了。


一、相似度距离公式

1、闵可夫斯基距离(Minkowski)
闵可夫斯基距离

当p为1的时候是曼哈顿距离(Manhattan)
当p为2的时候是欧式距离(Euclidean)
当p为无穷大的时候是切比雪夫距离(Chebyshev)

曼哈顿距离 - 欧式距离 - 切比雪夫距离
2、标准化欧式距离(Standardized Euclidean Distance)

左边公式是对样本所有的特征值做标准化,得到新的特征值。

平均值符号

中间公式里的s标准差怎么来的?
特征x1,对应了很多样本。所有样本的1号特征的均值即标准差,记为s1;
若每组样本有n个特征,那么就对应n个标准差 s1,s2 , ... , sn;

左 - 标准化的核心概念 中 - 总的标准差s求解 右 - 标准化欧氏距离
3、夹角余弦相似度(Cosine):

挖掘数据内在关联的时候可能会用到。

设两个向量
夹角余弦相似度
4、KL距离(相对熵)

用来度量两个分布的相似程度。P(X)和Q(X)是两个分布。求出来的是P相对于Q的相似度。

物理意义:在一个事件空间中,P(X)的事件空间,若用Q(X)这个概率分布进行编码的时候(Q来描述P),平均每一个基本事件的编码长度增加了多少比特。回顾之前信息熵的概念:《01 决策树 - 数学理论概述 - 熵

或者也可以这样理解:已知了Q的分布,用Q近似得去估计P,使得P的不确定度减少了多少。即,用一个分布来保证另一个分布的额外不确定度。

当P(X) = Q(X)时,表示两个分布完全相等。那么相对熵=0;
当P(X)和Q(X)的相似度差异很大,那么意味着相对熵的距离就越大。

KL距离(相对熵)

Jaccard、Pearson这两个相似度的度量公式偏重于统计学。 在机器学习中用的比较少,但是可以直接计算得到结果。

5、杰卡德相似系数(Jaccard)

如果J(A,B) 越趋近于1,表示A和B集合完全重合。如果J(A,B) 趋近于0,表示A和B集合几乎没有相交。

即J(A,B) 越接近于1,越相似。距离和相似程度反比,距离越小,相似程度越大。所以用 1-J(A,B) 来表示度量函数时,值越大,相似度越大。

Jaccard
6、Pearson相关系数

回顾: 标准差、方差、协方差的公式。

E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差
COV(X,Y)=E(XY)-E(X)E(Y);

协方差、方差都是描述的是数据的波动程度。
如一组数据:A:[0.00038、0.00001、0.00031];
第1个数据的大小是第二个数据的38倍,但是从绝对数值大小上来看,两者只相差了0.00037,方差看上去不大。
现在有另一组数据:B:[100000,1000020,1000010];
是A数据的方差大还是B数据的方差大?
绝对数值上是B的方差大,但是从波动范围来看,A数据的波动更大。所以用方差或者协方差来描述数据的波动情况不是很好的选择。

所以在计算相对数据波动大小的时候,我们要将数据标准化。
即:两个数据的协方差/两个数据的标准差的乘积 = Cov(X,Y) / √D(X) √D(Y)
衡量两个特征相似度的指标,我们把指标缩放到了[-1,1]之间。

具体计算公式如下:

Pearson

一般情况下:
若:|PXY|<0.3 则:X和Y不相关;
若:0.3<|PXY|<0.7 则: X和Y弱相关
若:0.7<|PXY|<1 则:X和Y强相关;
若:PXY>0 则:正相关;
若:PXY<0 则:负相关;

03 聚类算法 - K-means聚类

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272