度量学习中的马氏距离

参考博客：
协方差的意义
协方差矩阵的实例与意义
马氏距离的深入理解
马氏距离(推荐看一下原博)

度量学习的主流就是学习马氏距离。这里只先简单介绍一下马氏距离中的一些概念和意义。

1. 简单理解协方差的物理意义
2. 协方差矩阵中的元素对分布的影响
3. 对马氏距离的理解
（ps：直观上快速理解马氏距离的前因后果直接跳至第3部分的Q3即可）

1. 简单理解协方差的物理意义

在概率论中，两个随机变量 X 与 Y 之间相互关系，大致有下列3种情况：

正相关

当 X, Y 的联合分布像上图那样时，我们可以看出，大致上有： X 越大 Y 也越大， X 越小 Y 也越小，这种情况，我们称为“正相关”。

负相关

当X, Y 的联合分布像上图那样时，我们可以看出，大致上有：X 越大Y 反而越小，X 越小 Y 反而越大，这种情况，我们称为“负相关”。

不相关

当X, Y 的联合分布像上图那样时，我们可以看出：既不是X 越大Y 也越大，也不是 X 越大 Y 反而越小，这种情况我们称为“不相关”。

怎样将这3种相关情况，用一个简单的数字表达出来呢？

在图中的区域（1）中，有 X>EX ，Y-EY>0 ，所以(X-EX)(Y-EY)>0；

在图中的区域（2）中，有 X<EX ，Y-EY>0 ，所以(X-EX)(Y-EY)<0；

在图中的区域（3）中，有 X<EX ，Y-EY<0 ，所以(X-EX)(Y-EY)>0；

在图中的区域（4）中，有 X>EX ，Y-EY<0 ，所以(X-EX)(Y-EY)<0。

重点来了！！！

当X 与Y 正相关时，它们的分布大部分在区域（1）和（3）中，小部分在区域（2）和（4）中，所以平均来说，有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时，它们的分布大部分在区域（2）和（4）中，小部分在区域（1）和（3）中，所以平均来说，有(X-EX)(Y-EY)<0。

当 X与 Y不相关时，它们在区域（1）和（3）中的分布，与在区域（2）和（4）中的分布几乎一样多，所以平均来说，有(X-EX)(Y-EY)=0。

所以，我们可以定义一个表示X, Y 相互关系的数字特征，也就是协方差

cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时，表明X与Y 正相关；

当 cov(X, Y)<0时，表明X与Y负相关；

当 cov(X, Y)=0时，表明X与Y不相关。

这就是协方差的意义。

2. 协方差矩阵中的元素对分布的影响

这里共有五种情况，均为二维的高斯分布（正态分布），每个例子中有三个分布，分别给出了均值和协方差矩阵。均值代表正态分布的中心点，方差代表其分布的形状：

（1）三个协方差矩阵相同，都为对角阵，对角线元素相同

情况（1）

（2）三个协方差矩阵相同，都为对角阵，对角线元素不同

情况（2）

（3）三个协方差矩阵相同，不是对角阵，对角线元素不同

情况（3）

（4）三个协方差矩阵不同，都是对角阵，对角线元素相同

情况（4）

（5）三个协方差矩阵不同，不是对角阵，对角线元素不同

情况（5）

总结

均值为分布的中心点位置。
对角线元素决定了分布图形是圆还是扁。
非对角线元素决定了分布图形的轴向（扁的方向）。

3. 对马氏距离的理解

（1）定义：

马氏距离是由印度统计学家马哈拉诺比斯（P. C. Mahalanobis）提出的，表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系（例如：一条关于身高的信息会带来一条关于体重的信息，因为两者是有关联的）并且是尺度无关的（scale-invariant），即独立于测量尺度。对于一个均值为

，协方差矩阵为Σ的多变量矢量

，其马氏距离为

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量X与Y的差异程度：

如果协方差矩阵为单位矩阵，马氏距离就简化为欧式距离；如果协方差矩阵为对角阵，其也可称为正规化的马氏距离。

其中σi是xi的标准差。

（2）对马氏距离的疑问

Q1：为什么要使变量去掉单位而使尺度无关？

因为测量维度之间的数量级不同，导致计算距离得出的误差过大不具有实际意义（例如身高与体重两个维度计算距离没有意义），所以需要进行归一化处理。

Q2：为什么马氏距离是与尺度无关的？

根据上面1所描述，当计算两点的相似度（也可以说是距离的时候），第一步是首先标准化，化成与尺度无关的量，再计算它的距离。但是如果是单纯使每个变量先标准化，然后再计算距离，可能会出现某种错误，原因是可能在有些多维空间中，某个两个维之间可能是线性相关的，如下图所示：

黄色部分为样品点，可以知道x1与x2是线性相关的，根据正态分布，对于中心点u，与A与B的标准距离应该是相同的，而马氏距离能做到这一点，但欧氏距离做不到，如下图所示：

由上图看到，如果使用欧氏距离，A点与B点距离中心点相同，但是又可以看出，A点处于样品集的边缘了，再外出一点就成异常点了。因此我们使用欧氏距离计算的时候，不能有效地区分出异常数据，看不出两变量之间的相似性与差异性，而上图中，A与B对于全体样品来说，差异性是够大的了。

为了解决这个问题，我们可以通过旋转坐标轴的方法，如下图所示：

可以看到y1与y2是线性无关的，因此我们可以通过对线性无关的分量进行标准化后，再求得距离是合理的。其实通过旋转坐标轴的方式，相当于对x进行相应的线性变换：Y = PX,使Y里面的各分变量变成线性无关的。设 ∑ 是随机向量 X = [x1, x2, ..., xp]的协方差矩阵，它有特征值-特征向量对(λ1,e1)， (λ2,e2)，.....(λp,ep)，其中λ1>=λ2>=....>=λp，则第i主成分由

因此得到的新的变量Y里面的各分量是线性无关的，此时对于离中心点距离为某常数C形成的曲面是超椭球面。而yi的方差为λi，因而需要再把yi标准化，使之变成yi/λi，形成新的yi,这样生成的yi之间变成了与尺度无关的变量了，公式如下：

其中P是以特征向量为行向量的矩阵，根据正定距阵，特征向量互相正交。

现在来验证Y的协方差：

所以，对于旋转压缩后的Y的各分量之间线无关，而且已经标准化，与尺度无关，此时以Y分量为坐标轴形成的空间中，离中心距离为常数C的面为正圆球面。因而可以直接使用欧氏距离描述两点之间的相似度，也就是距离，因此有：

因此，当原坐标经过适当的变换之后，可以求出两点与尺度无关的距离，这也是使用马氏距离的原因。

Q3：这里我们来讨论两个直观意义上的问题 --- （1）协方差矩阵的逆在这里有什么作用，为什么要用逆？（2）马氏距离为什么要使变量间线性无关，这一步有什么意义？

这两个问题困扰了我两天了，终于有知乎大佬:马氏距离(Mahalanobis Distance)解释清楚了。大部分同学都是直接把公式一贴，解释公式了，让人很头大...（小声bb）

问题（1）：通俗的解释是用逆矩阵的原因是相当于除去scale对距离的影响,想想一维的情况就应该能理解了~比如说同样距离都是3,但是对于方差大的数据,这个距离就算小了,所以要用距离再除以方差,高维情况就是协方差阵的逆了，理论上的话请看下面。

问题（2）：虽然在Q2中简单讨论了一下这个问题，但是对于大部分同学来说（比如本菜）还是比较抽象，引用上面大佬的例子来解释一下。
我们都清楚一点，就是不同单位的特征之间不能简单比较（比如身高和体重）。我们能想到最直接的办法就是归一化。但是仅仅归一化是不行的，还会存在其他问题，什么问题呢？

那就是样本分布也会影响分类。

举个一维的例子：现在有两个类别，统一单位，第一个类别均值为0，方差为0.1，第二个类别均值为5，方差为5。那么一个值为2的点属于第一类的概率大还是第二类的概率大？距离上说应该是第一类，但是直觉上显然是第二类，因为第一类不太可能到达2这个位置。
所以，在一个方差较小的维度下很小的差别就有可能成为离群点。就像下图一样，A与B相对于原点的距离是相同的。但是由于样本总体沿着横轴分布，所以B点更有可能是这个样本中的点，而A则更有可能是离群点。

还有一个问题——如果维度间不独立同分布（即存在相关性），样本点一定与欧氏距离近的样本点同类的概率更大吗？

可以看到样本基本服从f(x) = x的线性分布，A与B相对于原点的距离依旧相等，显然A更像是一个离群点

即使数据已经经过了标准化，也不会改变AB与原点间距离大小的相互关系。所以要本质上解决这个问题，就要针对主成分分析中的主成分来进行标准化。

可能有同学对上面这句话表示难以理解，本菜简单解释一下。

假设这里图片中数据具有强烈的正相关，可以理解为数据的两个维度下均值近似相等，μ₁=μ₂=0；方差也近似相等，σ₁=σ₂=σ。所以我们可以看到，对A、B两个点进行归一化的公式为

显然这里的μ和σ都是相同的，所以标准化只相当于对A、B点与数据中心距离进行了一个等比例缩放，并不影响它们之间大小的相互关系~
由此可见，仅仅靠标准化的欧氏距离还是存在很大问题的，数据相关性对判定结果的影响还是很大的。

上面搞懂了，马氏距离就好理解了，只需要将变量按照主成分进行旋转，让维度间相互独立，然后进行标准化，让维度同分布就OK了。

好了，这里我们只讨论直观上面对马氏距离所产生的一些问题的理解，说到这里就差不多了，更多的公式推导本文中也有，大家也可以看引用的原博客。之后可能会更新一下对主成分分析的理解哦~

最后编辑于：2019.02.21 19:36:16

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 161,780评论 4赞 369
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,424评论 1赞 305
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 111,397评论 0赞 254
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,576评论 0赞 218
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,997评论 3赞 295
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,945评论 1赞 224
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,107评论 2赞 317
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,850评论 0赞 208
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,625评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,804评论 2赞 253
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,285评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,613评论 3赞 261
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,291评论 3赞 242
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,164评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,963评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,096评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,886评论 2赞 278