特征值特征向量的意义与应用(标准差椭圆)

一. 特征值与特征向量的意义

                            Ax=λx
   几何直观解释为x向量在矩阵A作用下使得x向量方向不变,且拉伸了λ倍。那x向量和λ的具体意义是什么呢?为什么有人说特征值分解就是变换坐标轴呢?

1. 线性变换的几何角度:
  • (1)从相似变换,线性变换角度为起点:

    设V是数域P上的n维线性空间,T是V的一个线性变换,现取定V的一组基α_1,α_2,α_3,…α_n,则每个Tα_i都是V中向量(i=1,2,…,n),故可设


线性变换矩阵

写成形式矩阵:
形式矩阵

矩阵
矩阵A

称为线性变换T在基α_1,α_2,α_3,…α_n下的矩阵。

  根据矩阵论严格推导,我们有定理: 一个线性变换在不同基下的矩阵是相似的,且使得其相似的矩阵是两者的过渡矩阵。也就是说两个矩阵相似,他们的含义就是他们是某一线性变换在两个不同基下的矩阵,即同一线性变换的不同基下的描述方式不同。

  • (2)以二维数据为例,协方差的特征分解的含义

我们以二维数据为例,X,Y 多个点对,其协方差矩阵M可以表示为


M协方差矩阵

我们将M进行特征分解,分解公式为:


M特征分解

    从矩阵特点及定义,可以得到M与Λ矩阵相似,那么根据(1)得出的结论,我们就可以把它看成,M和Λ是同一个线性变换在不同基下的描述矩阵,且Q为两者基的过渡矩阵。

    我们不妨设线性变换为T, T在基α_1,α_2下的矩阵为M,在基β_1,β_2下的矩阵为Λ。

    两个基的过渡矩阵即为Q,满足:


过渡关系

    接下来则从几何图形角度,得到这个基到底是谁,代表什么,我们首先画出一个坐标系和一些点对,假设这些点对求出的协方差矩阵即为上述假设出的M矩阵:


图1 坐标系及点对

    我们计算协方差时,点是以X,Y表示,那么更详细的说法则是点是以两个正交的轴,以1为单位所标注出来的坐标点,从基的角度则是以向量(1,0)' (0,1)'为基,分别在X方向,Y方向的长度。

   线性变换是一种抽象的计算函数,在协方差中线性变换T则是方差的计算函数,那么通过几何我们可以得到M是T在以(1,0)'(0,1)'为基的描述矩阵。

   那么再看两个基满足的式子:


过渡关系

那么(α_1,α_2)就是

代入后得到原来 \color{red}{Q就是Λ描述线性变换T下的基啊!}


   那这个基有啥特点呢,为什么要分解为这个基?而不是别的。

   我们知道特征值分解后,Λ矩阵是一个对角阵,且对角值都是特征值

特征值矩阵

   Λ与M矩阵都是描述同一个线性变换T,Λ这个描述就很有特色,他让每一个维度都独立了出来,即维度间互不相关了,直观的理解就是,以前我是一个直角坐标系,现在我可以表示成这样了:

X维
Y维

   啥意思? 就是我们只关心一个维度 分别画出来,比如只关心X值,那么把X画在X轴上。 相当于把一个复合的东西,分解成一个一个的。

   那Q其实就是能够在单维度上表达出值的那个轴,比如在X维度上,Q上的X维的特征向量 就是一个可以像示例一样,以一维方式表达值的X轴,所以有时为了理解我们会说成是坐标轴的转换。


   数学角度的意思搞懂了,从实际意义呢,为什么要把各个维度分开呢,其实就是我们要找到每个维度原本的值。举例子 我们从单维度向多维映射思想讲解:

  • 现在我们有一个一维线
单维度
  • 我们把这些值投射到两个维度上:
一维映射到二维

   线上的点值从单维映射到了二维上,相当于一块木头本来用一个工具就能打磨好,现在我用了两个工具一起打磨,也就造成了这两个维度上的值 在这个单维度上有了相关性,一个人的活分给了两个人干,每个维度的值必定会小于原本单维度的值。

   而我们进行特征值分解,就是找到这个单维度的轴,把值聚合起来(不是单纯的相加),看看他所拥有的值。即找到某维度上其本该拥有的值,值在不映射到多维时,最大。

   我们从整体来看,当每个维度都分离开了,看到了每个维度所拥有的值,那么整体效果,就是每个维度所叠加聚合形成的,每个维度的贡献就是其拥有的值的大小,越大贡献越多,整体表现也趋向较大的一方。
   那么结论也就有了,特征值在协方差的意义基础上,就是以单位长度的特征向量为基,每个维度上的值对应的方差。 即此时的特征值就是每个维度的最大方差。可根据具体数据自行确认。

*以上的结论有隐藏条件,1。维度间是正交的,因为协方差是对称矩阵,所以必正交。 2。基也必须是单位长度才能说特征值为方差,相当于以1为刻度。 假如不是单位长度呢?自行思考,同样的道理只是尺度不同。


2. 统计学角度:

从多元正态分布角度考虑,参考知乎大佬的文章:
https://zhuanlan.zhihu.com/p/37609917
从多元正态分布角度,协方差矩阵特征分解与点位分布的关系

结论:多元正态分布的概率密度是由协方差矩阵的特征向量控制旋转(rotation),特征值控制尺度(scale),即特征向量矩阵为点分布的旋转矩阵,而特征值为 点位分布拉伸的平方。协方差即分布的一种几何表达

注意:经常会碰到说特征值是拉伸倍数,平常所见的是对特征向量的拉伸倍数,对于点的分布是拉伸倍数的开方。 作用对象不同。

二. 方向分析(标准差椭圆)中的应用

   方向分析或者说标准差椭圆用于点集的方向与范围表达,点集的方向表现在点集整体的最大离散方向即方差最大的维度上,范围表现在各维度上最大离散方向的聚合。

   表现在坐标上,方向则是找出使点的X值或者Y值在某向量或者说轴上方差最大,范围则是X,Y值两者各自最大方差的两个向量构成的椭圆。
   从正态分布的角度上,椭圆的具体参数 中心为所有点的均值处,长半轴为 X值维度与Y值维度方差较大者的 标准差,短半轴为X值维度与Y值维度方差较小者的 标准差。方向为 X值维度与Y值维度方差较大者的 轴向量方向


可以按照涵盖点位的比例,选取半径为1,2,3倍。


标准差椭圆示意图

推荐阅读更多精彩内容