2018-01-31 转载知乎: 如何理解矩阵特征值?

96
aoaocool
0.7 2018.02.01 03:06 字数 15778

转载知乎 如何理解矩阵特征值? 

马同学

看图学数学,公众号:matongxue314

1,644 人赞同了该回答

(下面的回答只涉及实数范围)。

关于特征值、特征向量可以讲的确实很多,我这里希望可以给大家建立一个直观的印象。

先给一个简短的回答,如果把矩阵看作是运动,对于运动而言,最重要的当然就是运动的速度和方向,那么(我后面会说明一下限制条件):

特征值就是运动的速度

特征向量就是运动的方向

既然运动最重要的两方面都被描述了,特征值、特征向量自然可以称为运动(即矩阵)的特征。

注意,由于矩阵是数学概念,非常抽象,所以上面所谓的运动、运动的速度、运动的方向都是广义的,在现实不同的应用中有不同的指代。

下面是详细的回答,我会先从几何上简单讲解下特征值、特征向量的定义指的是什么,然后再来解释为什么特征值、特征向量会是运动的速度和方向。

1 几何意义

说明下,因为线性变换总是在各种基之间变来变去,所以我下面画图都会把作图所用的基和原点给画出来。

下面有个

随便左乘一个矩阵

,图像看上去没有什么特殊的:

我调整下

的方向,图像看上去有点特殊了:

可以观察到,调整后的

在同一根直线上,只是

的长度相对

的长度变长了。

此时,我们就称

的特征向量,而

的长度是

的长度的

倍,

就是特征值。

从而,特征值与特征向量的定义式就是这样的:

其实之前的

不止一个特征向量,还有一个特征向量:

容易从

相对于

是变长了还是缩短看出,这两个特征向量对应的特征

值,一个大于1,一个小于1。

从特征向量和特征值的定义式还可以看出,特征向量所在直线上的向量都是特征向量:

你可以自己动手试试,可以改变

的位置,以及矩阵

的值(特征空间会随着矩阵改变而改变):

此处有互动内容,点击此处前往操作。

其中有些值构成的矩阵没有画出特征空间,可能是因为它的特征值、特征向量是复数,也可能是不存在。

下面就要说下,特征值、特征向量与运动的关系

2 运动的速度与方向

2.1 从调色谈起

我有一管不知道颜色的颜料,而且这管颜料有点特殊,我不能直接挤出来看颜色,只能通过调色来观察:

为了分辨出它是什么颜色(记得它只能通过调色来辨别):

因为反复混合之后,这管颜料的特征就凸显了出来,所以我们判断,这管颜料应该是蓝色。

说这个干什么?矩阵也有类似的情况。

2.2 矩阵的混合

一般来说,矩阵我们可以看作某种运动,而二维向量可以看作平面上的一个点(或者说一个箭头)。对于点我们是可以观察的,但是运动我们是不能直接观察的。

就好像,跑步这个动作,我们不附加到具体的某个事物上是观察不到的,我们只能观察到:人跑步、猪跑步、老虎跑步、......,然后从中总结出跑步的特点。

就好像之前举的不能直接观察的颜料一样,要观察矩阵所代表的运动,需要把它附加到向量上才观察的出来:

似乎还看不出什么。但是如果我反复运用矩阵乘法的话:

就像之前颜料混合一样,反复运用矩阵乘法,矩阵所代表的运动的最明显的特征,即速度最大的方向,就由最大特征值对应的特征向量展现了出来。

至于别的特征值对应的是什么速度,我后面会解释,这里先跳过。

可以自己动手试试,我把

值也标注出来了,可以关注下最大

值对于运动的影响:

此处有互动内容,点击此处前往操作。

顺便说下,对于复数的特征值、特征向量,在上面就没有画出特征空间,但可以观察到反复运用矩阵乘法的结果是围绕着原点在旋转。关于复数特征值和特征向量这里就不展开来说了。

2.3 烧一壶斐波那契的水

上面说的运动太抽象了,我来举一个具体点的例子:烧水。

比如说我想烧一壶水,水的温度按照斐波那契数列升高,即下一秒的温度

与当前温度

以及上一秒的温度

的关系为:

要继续计算下去,我只需要

以及

就可以继续算下去。因此我可以写成下面的式子:

因此烧水这个运动我们可以抽象为矩阵

,反复进行这个运动就可以烧开这壶水,根据斐波那契数列,让我们从

点开始(感兴趣的话,可以通过之前的互动调整下参数,可以得到下面的结果):

就可以看出,这壶水的温度会沿着

的特征值最大的特征向量方向飞快增长,我估计要不了多久,在理想的情况下,温度就会突破百万度、千万度、亿万度,然后地球说不定就爆炸了。我们就说这个矩阵不稳定。

所以说,不要烧斐波那契的水。

实际上历史也是这样,欧拉在研究刚体的运动时发现,有一个方向最为重要,后来拉格朗日发现,哦,原来就是特征向量的方向。

我们知道特征值、特征向量有什么特点之后,下一步就想知道,为什么会这样?

3 特征值分解

下面讲解要用到矩阵乘法和相似矩阵的知识,我就不啰嗦了,可以参看我的回答:行列式的本质是什么?以及相似矩阵是什么?

我们知道,对于矩阵

可以对角化的话,可以通过相似矩阵进行下面这样的特征值分解:

其中

为对角阵,

的列向量是单位化的特征向量。

说的有点抽象,我们拿个具体的例子来讲:

对于方阵而言,矩阵不会进行维度的升降,所以矩阵代表的运动实际上只有两种:

旋转

拉伸

最后的运动结果就是这两种的合成。

我们再回头看下刚才的特征值分解,实际上把运动给分解开了:

我们来看看在几何上的表现是什么,因此相似矩阵的讲解涉及到基的变换,所以大家注意观察基:

左乘

如果旋转前的基不正交,旋转之后变为了标准基,那么实际会产生伸缩,所以之前说的正交很重要。

继续左乘对角矩阵

相当于,之前的旋转是指明了拉伸的方向,所以我们理解了:

特征值就是拉伸的大小

特征向量指明了拉伸的方向

回到我们之前说的运动上去,特征值就是运动的速度,特征向量就是运动的方向,而其余方向的运动就由特征向量方向的运动合成。所以最大的特征值对应的特征向量指明了运动速度的最大方向。

但是,重申一下,上面的推论有一个重要的条件,特征向量正交,这样变换后才能保证变换最大的方向在基方向。如果特征向量不正交就有可能不是变化最大的方向,比如:

所以我们在实际应用中,都要去找正交基。但是特征向量很可能不是正交的,那么我们就需要奇异值分解了,这里就不展开了。

大家可以再回头去操作一下之前的动图,看看不正交的情况下有什么不一样。

左乘

说明下,如果大家把这个文章和之前提到的我写的“相似矩阵”的文章参照来看的话,“相似矩阵”那篇文章里面我把图像的坐标系换了,所以看着图像没有变换(就好像直角坐标系到极坐标系下,图像是不会变换的)。而这里我把图像的坐标系给旋转、拉伸了,所以看着图像变换了(就好像换元,会导致图像变换)。这其实是看待矩阵乘法的两种视角,是等价的,但是显示到图像上就有所不同。

4 特征值、特征向量的应用

4.1 控制系统

之前的烧水系统是不稳定的。

的,系统最终会趋于稳定:

4.2 图片压缩

比如说,有下面这么一副

的图片(方阵才有特征值,所以找了张正方形的图):

这个图片可以放到一个矩阵里面去,就是把每个像素的颜色值填入到一个

矩阵中。

根据之前描述的有:

其中,

是对角阵,对角线上是从大到小排列的特征值。

我们在

中只保留前面50个的特征值(也就是最大的50个,其实也只占了所有特征值的百分之十),其它的都填0,重新计算矩阵后,恢复为下面这样的图像:

效果还可以,其实一两百个特征值之和可能就占了所有特征值和的百分之九十了,其他的特征值都可以丢弃了。

编辑于 2017-08-05

1.6K​128 条评论

​分享

​收藏​感谢收起

李浩

低头玩手机相当于在脖子上挂两个大铁球。

1,255 人赞同了该回答

补充:答主现在用到的多数是对称矩阵或酉矩阵的情况,有思维定势了,写了半天才发现主要讲的是对称矩阵,这答案就当科普用了。特征值在很多领域应该都有自己的用途,它的物理意义到了本科高年级或者研究生阶段涉及到具体问题的时候就容易理解了,刚学线性代数的话,确实抽象。

——————————————————以下为正文——————————————————

从线性空间的角度看,在一个定义了内积的线性空间里,对一个N阶对称方阵进行特征分解,就是产生了该空间的N个标准正交基,然后把矩阵投影到这N个基上。N个特征向量就是N个标准正交基,而特征值的模则代表矩阵在每个基上的投影长度。

特征值越大,说明矩阵在对应的特征向量上的方差越大,功率越大,信息量越多。

应用到最优化中,意思就是对于R的二次型,自变量在这个方向上变化的时候,对函数值的影响最大,也就是该方向上的方向导数最大。

应用到数据挖掘中,意思就是最大特征值对应的特征向量方向上包含最多的信息量,如果某几个特征值很小,说明这几个方向信息量很小,可以用来降维,也就是删除小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做以后数据量减小,但有用信息量变化不大。

——————————————————举两个栗子——————————————————

应用1 二次型最优化问题

二次型

,其中R是已知的二阶矩阵,R=[1,0.5;0.5,1],x是二维列向量,x=[x1;x2],求y的最小值。

求解很简单,讲一下这个问题与特征值的关系。

对R特征分解,特征向量是[-0.7071;0.7071]和[0.7071;0.7071],对应的特征值分别是0.5和1.5。

然后把y的等高线图画一下

从图中看,函数值变化最快的方向,也就是曲面最陡峭的方向,归一化以后是[0.7071;0.7071],嗯哼,这恰好是矩阵R的一个特征值,而且它对应的特征向量是最大的。因为这个问题是二阶的,只有两个特征向量,所以另一个特征向量方向就是曲面最平滑的方向。这一点在分析最优化算法收敛性能的时候需要用到。

二阶问题比较直观,当R阶数升高时,也是一样的道理。

应用2 数据降维

兴趣不大的可以跳过问题,直接看后面降维方法。

机器学习中的分类问题,给出178个葡萄酒样本,每个样本含有13个参数,比如酒精度、酸度、镁含量等,这些样本属于3个不同种类的葡萄酒。任务是提取3种葡萄酒的特征,以便下一次给出一个新的葡萄酒样本的时候,能根据已有数据判断出新样本是哪一种葡萄酒。

问题详细描述:UCI Machine Learning Repository: Wine Data Set

训练样本数据:http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

原数据有13维,但这之中含有冗余,减少数据量最直接的方法就是降维。

做法:把数据集赋给一个178行13列的矩阵R,减掉均值并归一化,它的协方差矩阵

,C是13行13列的矩阵,对C进行特征分解,对角化

,其中U是特征向量组成的矩阵,D是特征之组成的对角矩阵,并按由大到小排列。然后,另

,就实现了数据集在特征向量这组正交基上的投影。嗯,重点来了,R’中的数据列是按照对应特征值的大小排列的,后面的列对应小特征值,去掉以后对整个数据集的影响比较小。比如,现在我们直接去掉后面的7列,只保留前6列,就完成了降维。这个降维方法叫PCA(Principal Component Analysis)。

下面看结果:

这是不降维时候的分类错误率。

这是降维以后的分类错误率。

结论:降维以后分类错误率与不降维的方法相差无几,但需要处理的数据量减小了一半(不降维需要处理13维,降维后只需要处理6维)。

编辑于 2016-12-20

1.3K​114 条评论

​分享

​收藏​感谢收起

Xnane

电气工程,科幻迷

91 人赞同了该回答

前面的回答比较专业化,而且好像没说特征值是虚数的情况,并不是只有特征向量的伸缩。作为工科线代水平,我说下自己的理解。

    矩阵特征值是对特征向量进行伸缩和旋转程度的度量,实数是只进行伸缩,虚数是只进行旋转,复数就是有伸缩有旋转。其实最重要的是特征向量,从它的定义可以看出来,特征向量是在矩阵变换下只进行“规则”变换的向量,这个“规则”就是特征值。推荐教材linear algebra and its application

编辑于 2014-05-23

91​17 条评论

​分享

​收藏​感谢

郑梓豪

Make real impact.

收录于 编辑推荐 · 216 人赞同了该回答

各位知友在点赞同之前请看一下评论区。这个例子有待讨论。

-----------

我举一个直观一点的例子吧...我也喜欢数学的直观之美。

我们知道,一张图像的像素(如:320 x 320)到了计算机里面事实上就是320x320的矩阵,每一个元素都代表这个像素点的颜色..

如果我们把基于特征值的应用,如PCA、向量奇异值分解SVD这种东西放到图像处理上,大概就可以提供一个看得到的、直观的感受。关于SVD的文章可以参考LeftNotEasy的文章:机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

简单的说,SVD的效果就是..用一个规模更小的矩阵去近似原矩阵...

这里A就是代表图像的原矩阵..其中的

尤其值得关注,它是由A的特征值从大到小放到对角线上的..也就是说,我们可以选择其中的某些具有“代表性”的特征值去近似原矩阵!

左边的是原始图片

当我把特征值的数量减少几个的时候...后面的图像变“模糊”了..

同样地...

关键的地方来了!如果我们只看到这里的模糊..而没有看到计算机(或者说数学)对于人脸的描述,那就太可惜了...我们看到,不论如何模糊,脸部的关键部位(我们人类认为的关键部位)——五官并没有变化太多...这能否说:数学揭示了世界的奥秘?

编辑于 2014-05-05

216​37 条评论

​分享

​收藏​感谢收起

Gilbert

Amazon码农

79 人赞同了该回答

定义很抽象我也一直搞不懂,但是最近开始在图像处理方面具体应用的时候就清晰很多了,用学渣的语言沟通一下吧我们。

抛开学术研究不谈,其实根本不会,特征值eigenvalue和特征向量eigenvector的一大应用是用于大量数据的降维

比如拿淘宝举个例子,每个淘宝店铺有N个统计数据:商品类型,日销量周销量月销量、好评率中评差评率……全淘宝有M家店铺,那么服务器需要记录的数据就是M*N的矩阵;

这是一个很大的数据,实际上我们可以通过求这个矩阵的特征向量和对应的特征值来重新表示这个M*N的矩阵:

我们可以用周销量来误差不大的表示日销量和月销量(除以七和乘以四),这个时候周销量就可以当作一个特征向量,它能够表示每个店铺销量这个空间方向的主要能量(也就是数据),这样我们就简略的把一个35维的向量简化成四维的(30个日销量加4个周销量加1个月销量);

同理我们也可以把好评率中评率差评率用一个好评率来表示(剩余的百分比默认为差评率),这样的降维大致上也能反映一个店铺的诚信度;

这样通过不断的降维我们可以提取到某系列数据最主要的几个特征向量(对应特征值最大的),这些向量反映了这个矩阵空间最主要的能量分布,所以我们可以用这几个特征向量来表示整个空间,实现空间的降维。

这个方法叫做Principle Components Analysis,有兴趣的同学可以wiki一下。

学渣飘过了

编辑于 2015-10-23

79​19 条评论

​分享

​收藏​感谢

黄培浩

程序员

62 人赞同了该回答

作为一个线性代数考60+的学渣,我是这么直观地理解的:

把式子中的

看作一个线性变换,那么这个定义式就表示对于 向量

而言,经过

变换之后该向量的方向没有变化(可能会反向),而只是长度变化了(乘以

)。

也就是对于变换

来说,存在一些“不变”的量(比如特征向量

的方向),我想,“特征”的含义就是“不变”

而特征值

,如你所见,就是变换

在特征方向上的伸展系数吧(乱诹了个名词 :P)。

嗯,觉得维基其实讲的就挺好的:https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%90%91%E9%87%8F

编辑于 2014-03-30

62​5 条评论

​分享

​收藏​感谢

阿狸

神奇的矩阵

554 人赞同了该回答

想要理解特征值,首先要理解矩阵相似。什么是矩阵相似呢?从定义角度就是:存在可逆矩阵P满足B=

则我们说A和B是相似的。让我们来回顾一下之前得出的重要结论:对于同一个线性空间,可以用两组不同的基

和基

来描述,他们之间的过渡关系是这样的:

,而对应坐标之间的过渡关系是这样的:

。其中P是可逆矩阵,可逆的意义是我们能变换过去也要能变换回来,这一点很重要。

我们知道,对于一个线性变换,只要你选定一组基,那么就可以用一个矩阵T1来描述这个线性变换。换一组基,就得到另一个不同的矩阵T2(之所以会不同,是因为选定了不同的基,也就是选定了不同的坐标系)。所有这些矩阵都是这同一个线性变换的描述,但又都不是线性变换本身。具体来说,有一个线性变换

,我们选择基

来描述,对应矩阵是

;同样的道理,我们选择基

来描述

,,对应矩阵是

;我们知道基

和基

是有联系的,那么他们之间的变换

有没有联系呢?

当然有,

就是相似的关系,具体的请看下图:

没错,所谓相似矩阵,就是同一个线性变换的不同基的描述矩阵。这就是相似变换的几何意义。

这个发现太重要了。原来一族相似矩阵都是同一个线性变换的描述啊!难怪这么重要!工科研究生课程中有矩阵论、矩阵分析等课程,其中讲了各种各样的相似变换,比如什么相似标准型,对角化之类的内容,都要求变换以后得到的那个矩阵与先前的那个矩阵式相似的,为什么这么要求?因为只有这样要求,才能保证变换前后的两个矩阵是描述同一个线性变换的。就像信号处理(积分变换)中将信号(函数)进行拉氏变换,在复数域处理完了之后又进行拉式反变换,回到实数域一样。信号处理中是主要是为了将复杂的卷积运算变成乘法运算。其实这样的变换还有好多,有兴趣可以看积分变换的教材。

为什么这样做呢?矩阵的相似变换可以把一个比较丑的矩阵变成一个比较美的矩阵,而保证这两个矩阵都是描述了同一个线性变换。至于什么样的矩阵是“美”的,什么样的是“丑”的,我们说对角阵是美的。在线性代数中,我们会看到,如果把复杂的矩阵变换成对角矩阵,作用完了之后再变换回来,这种转换很有用处,比如求解矩阵的n次幂!而学了矩阵论之后你会发现,矩阵的n次幂是工程中非常常见的运算。这里顺便说一句,将矩阵对角化在控制工程和机械振动领域具有将复杂方程解耦的妙用!总而言之,相似变换是为了简化计算!

从另一个角度理解矩阵就是:矩阵主对角线上的元素表示自身和自身的关系,其他位置的元素aij表示i位置和j位置元素之间的相互关系。那么好,特征值问题其实就是选取了一组很好的基,就把矩阵 i位置和j位置元素之间的相互关系消除了。而且因为是相似变换,并没有改变矩阵本身的特性。因此矩阵对角化才如此的重要!

特征向量的引入是为了选取一组很好的基。空间中因为有了矩阵,才有了坐标的优劣。对角化的过程,实质上就是找特征向量的过程。如果一个矩阵在复数域不能对角化,我们还有办法把它化成比较优美的形式——Jordan标准型。高等代数理论已经证明:一个方阵在复数域一定可以化成Jordan标准型。这一点有兴趣的同学可以看一下高等代数后或者矩阵论。

经过上面的分析相信你已经可以得出如下结论了:坐标有优劣,于是我们选取特征向量作为基底,那么一个线性变换最核心的部分就被揭露出来——当矩阵表示线性变换时,特征值就是变换的本质!特征值的几何意义前面的答主已经用很多图解释过了,接下来我们分析一下特征值的物理意义:特征值英文名eigen value。“特征”一词译自德语的eigen,由希尔伯特在1904年首先在这个意义下使用(赫尔曼·冯·亥姆霍兹在更早的时候也在类似意义下使用过这一概念)。eigen一词可翻译为“自身的”,“特定于...的”,“有特征的”或者“个体的”—这强调了特征值对于定义特定的变换上是很重要的。它还有好多名字,比如谱,本征值。为什么会有这么多名字呢?

原因就在于他们应用的领域不同,中国人为了区分,给特不同的名字。你看英文文献就会发现,他们的名字都是同一个。当然,特征值的思想不仅仅局限于线性代数,它还延伸到其他领域。在数学物理方程的研究领域,我们就把特征值称为本征值。如在求解薛定谔波动方程时,在波函数满足单值、有限、连续性和归一化条件下,势场中运动粒子的总能量(正)所必须取的特定值,这些值就是正的本征值。

前面我们讨论特征值问题面对的都是有限维度的特征向量,下面我们来看看特征值对应的特征向量都是无限维函数的例子。这时候的特征向量我们称为特征函数,或者本证函数。这还要从你熟悉的微分方程说起。方程本质是一种约束,微分方程就是在世界上各种各样的函数中,约束出一类函数。对于一阶微分方程

我们发现如果我将变量y用括号[]包围起来,微分运算的结构和线性代数中特征值特征向量的结构,即

竟是如此相似。这就是一个求解特征向量的问题啊!只不过“特征向量”变成函数!我们知道只有

满足这个式子。这里出现了神奇的数e,一杯开水放在室内,它温度的下降是指数形式的;听说过放射性元素的原子核发生衰变么?随着放射的不断进行,放射强度将按指数曲线下降;化学反应的进程也可以用指数函数描述……类似的现象还有好多。

为什么选择指数函数而不选择其他函数,因为指数函数是特征函数。为什么指数函数是特征?我们从线性代数的特征向量的角度来解释。这已经很明显了

就是“特征向量”。于是,很自然的将线性代数的理论应用到线性微分方程中。那么指数函数就是微分方程(实际物理系统)的特征向量。用特征向量作为基表示的矩阵最为简洁。就像你把一个方阵经过相似对角化变换,耦合的矩阵就变成不耦合的对角阵一样。在机械振动里面所说的模态空间也是同样的道理。如果你恰巧学过振动分析一类的课程,也可以来和我交流。

同理,用特征函数解的方程也是最简洁的,不信你用级数的方法解方程,你会发现方程的解有无穷多项。解一些其他方程的时候(比如贝塞尔方程)我们目前没有找到特征函数,于是退而求其次才选择级数求解,至少级数具有完备性。实数的特征值代表能量的耗散或者扩散,比如空间中热量的传导、化学反应的扩散、放射性元素的衰变等。虚数的特征值(对应三角函数)代表能量的无损耗交换,比如空间中的电磁波传递、振动信号的动能势能等。复数的特征值代表既有交换又有耗散的过程,实际过程一般都是这样的。复特征值在电路领域以及振动领域将发挥重要的作用,可以说,没有复数,就没有现代的电气化时代!

对于二阶微分方程方程,它的解都是指数形式或者复指数形式。可以通过欧拉公式将其写成三角函数的形式。复特征值体现最多的地方是在二阶系统,别小看这个方程,整本自动控制原理都在讲它,整个振动分析课程也在讲它、还有好多课程的基础都是以这个微分方程为基础,这里我就不详细说了,有兴趣可以学习先关课程。说了这么多只是想向你传达一个思想,就是复指数函数式系统的特征向量!

如果将二阶微分方程转化成状态空间

的形式(具体转化方法见现代控制理论,很简单的)

。则一个二阶线性微分方程就变成一个微分方程组的形式这时就出现了矩阵A,矩阵可以用来描述一个系统:如果是振动问题,矩阵A的特征值是虚数,对应系统的固有频率,也就是我们常说的,特征值代表振动的谱。如果含有耗散过程,特征值是负实数,对应指数衰减;特征值是正实数,对应指数发散过程,这时是不稳定的,说明系统极容易崩溃,如何抑制这种发散就是控制科学研究的内容。

提到振动的谱,突然想到了这个经典的例子:美国数学家斯特让(G..Strang)在其经典教材《线性代数及其应用》中这样介绍了特征值作为频率的物理意义,他说:"大概最简单的例子(我从不相信其真实性,虽然据说1831年有一桥梁毁于此因)是一对士兵通过桥梁的例子。传统上,他们要停止齐步前进而要散步通过。这个理由是因为他们可能以等于桥的特征值之一的频率齐步行进,从而将发生共振。就像孩子的秋千那样,你一旦注意到一个秋千的频率,和此频率相配,你就使频率荡得更高。一个工程师总是试图使他的桥梁或他的火箭的自然频率远离风的频率或液体燃料的频率;而在另一种极端情况,一个证券经纪人则尽毕生精力于努力到达市场的自然频率线。特征值是几乎任何一个动力系统的最重要的特征。"

对于一个线性系统,总可以把高阶的方程转化成一个方程组描述,这被称为状态空间描述。因此,他们之间是等价的。特征值还有好多用处,原因不在特征值本身,而在于特征值问题和你的物理现象有着某种一致的对应关系。学习特征值问题告诉你一种解决问题的方法:寻找事物的特征,然后特征分解。

最后声明一下, 本文是在整理孟岩老师的《理解矩阵》和任广千、胡翠芳老师的《线性代数的几何意义》基础上形成的,只是出于一种对数学的爱好!有兴趣的读者建议阅读原文。也欢迎下载《神奇的矩阵》和《神奇的矩阵第二季》了解更多有关线性代数和矩阵的知识。

编辑于 2017-04-16

554​100 条评论

​分享

​收藏​感谢收起

董豪晨

Talk is cheap, show me the formula

52 人赞同了该回答

看了大部分的回答,基本都没有回答出为什么要求特征值。

特征值和特征向量是为了研究向量在经过线性变换后的方向不变性而提出的,一个空间里的元素通过线性变换到另一个相同维数的空间,那么会有某些向量的方向在变换前后不会改变,方向不变但是这些向量的范数可能会改变,我这里说的都是实数空间的向量。

定义

,定义

为原始空间中的向量,

为变换后空间的向量,简单起见令

阶方阵且特征值

互不相同,对应的特征向量

线性无关。那么原始空间中的任何一个向量都可以由A的特征向量表示,既

那么在变换到另一个空间时

,这就求完了!

好,下面再说更深层次的含义。

在不同的领域特征值的大小与特征向量的方向所表示的含义也不同,但是从数学定义上来看,每一个原始空间中的向量都要变换到新空间中,所以他们之间的差异也会随之变化,但是为了保持相对位置,每个方向变换的幅度要随着向量的分散程度进行调整。

你们体会一下拖拽图片使之放大缩小的感觉。

如果A为样本的协方差矩阵,特征值的大小就反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大,换句话说这个方向上的元素更分散。

编辑于 2016-08-02

52​11 条评论

​分享

​收藏​感谢

Wei Hu

7 人赞同了该回答

推荐一种看法吧,粗略描述如下:

把矩阵看成线性变换,找特征值就是找这个线性变换下的不变自空间。

然后一些好的矩阵、线性变换,就可以分成好多个简单的变换了。

不好的矩阵也可以作进一步处理,也能分解。

将复杂的东西变成很多简单的东西,这是数学很美的一点。

很多应用也是基于这样的直观。

有时间再补充一些细节吧。

发布于 2014-10-03

7​2 条评论

​分享

​收藏​感谢

薛卫东

5 人赞同了该回答

如果把矩阵理解为空间变换的参数,那特征值和特征向量可这样理解:

现在将x(m*1)向量按照A(m*m)矩阵进行空间变换,A矩阵的特征向量为a1,a2,a3,...,am,特征值为b1,b2,b3,...,bm。

可以把a1,a2,a3,...,am想象成m维坐标系下的m根柱子,每根柱子都相当于一个有刻度的轨道,上边有一个支点,空间系在这m个支点上,并且会因为支点的变化而变化。支点变化导致空间变化,空间变化导致空间中的向量变化。这个空间中的所有向量,都会随着任何支点的变化而变化,被拉伸旋转。

在原始空间的情况下,每根柱子的支点都在刻度1上。现在要对向量b按照A矩阵进行空间变换,则每根柱子上的支点按照b1,b2,b3,...,bm进行伸缩,空间随之伸缩。而随着空间在不同维度上不同量的伸缩,向量b也随之被伸缩旋转。

特征向量决定了空间变化时,空间伸缩的不同方向,特征值决定伸缩的程度。方向和特征值相配合,使空间中的任何向量都发生了该矩阵所代表的空间变化。

编辑于 2016-08-09

5​1 条评论

​分享

​收藏​感谢

未知

148 人赞同了该回答

特征值不仅仅是数学上的一个定义或是工具,特征值是有具体含义的,是完全看得见摸得着的。

1.  比如说一个三维矩阵,理解成线性变换,作用在一个球体上:

三个特征值决定了 对球体在三个维度上的拉伸/压缩,把球体塑造成一个橄榄球;

剩下的部分决定了这个橄榄球在三维空间里面怎么旋转。

2.  对于一个微分方程:

将系数提取出来

对角化:

其中

由于

定义

于是有

因此y的变化率与特征值息息相关:

再将y由Q变换回x,我们就能得出x在不同时间的值。x的增长速度就是特征值λ,Q用来把x旋转成y。

发布于 2013-10-25

148​15 条评论

​分享

​收藏​感谢收起

y z

1 人赞同了该回答

抛个砖

如果某个物理系统的若干变量的关系可用含参数的矩阵表示。参数满足特征方程时,齐次形式表明此时的系统变量在输入为零时可达无穷大,表明系统在该参数下不稳定。故特征值由系统参数决定,并可反求之。

发布于 2013-10-24

1​添加评论

​分享

​收藏​感谢

未名

优化, 学习

3 人赞同了该回答

references:(1) 式   horn

编辑于 2016-05-18

3​1 条评论

​分享

​收藏​感谢

单英晋

数学 & 汽车

11 人赞同了该回答

什么是方阵?方阵就是n维线性空间上的线性变换。那么我们总要考虑最简单的情况:什么是一维的线性变换呢?就是简单的常数倍拉伸

A: x -> ax

在高维的时候,线性变换A的结构可能很复杂,但它总会保持某些一维子空间不变。在这些子空间上它的限制就是一个一维线性变换,这个变换的拉伸常数就是A在这个子空间上的特征值。

发布于 2013-10-24

11​添加评论

​分享

​收藏​感谢

慢点吃

工科生

16 人赞同了该回答

从相似变换开始讲吧。

A=PNP-1

如果我们取N是对角阵,那主对角线上的三个数就是三个特征值,而P矩阵就是特征向量的排列。

随便给一个向量x,有

Ax=PNP-1x

左边我们都知道是线性变换,而右边怎么看呢?

首先我们看P-1x

P的每一个列向量都是一个特征向量,也就是说P构成线性空间的一组基。那么P逆x即将x变换为特征向量为基表示的坐标。

为便于直观理解,特殊的,如果P为单位正交阵(即几个特征向量互相垂直且模长为1),那么P逆等于P转置,即P逆是特征向量排列出来的,每一行元素其实是一个特征向量。由于特征向量无所谓尺度,我们把它的模长归一化一下。

这样,P逆x相当于把每一个特征向量与x做内积。由于特征向量模长为1,内积得到的实际上是x在特征向量上的投影长度。整体而言,这一步得到的是x向量在特征向量坐标系下面的坐标值。

再乘中间的对角矩阵N,实际上是把刚才得到的新坐标在每一个特征向量上放大或者缩小特征值倍。

最后一步,再乘P,相当于把坐标还原到原来的坐标系下面。

所以说,

矩阵代表一个线性变换(在某几个方向放大或者缩小)。

特征向量代表这个线性变换的几个方向。

特征值代表放大或者缩小的倍数。

以上。

私以为这样理解是直观的。

(这个答案已经和三个月前的回答很不一样了,当初啥都不懂强答的,后来学了点图像的知识理解深刻了以后重新回答了一下。)

编辑于 2016-12-21

16​9 条评论

​分享

​收藏​感谢

燕南

http://WolframAlpha.com 知识引擎软件研发

30 人赞同了该回答

特徵向量反映了線性變換的方向,在這幾個方向上線性變換只導致伸縮,沒有旋轉;特徵值反映線性變換在這幾個方向上導致的伸縮的大小。

编辑于 2014-05-04

30​2 条评论

​分享

​收藏​感谢

江磊

鹅厂 广告算法工程师

26 人赞同了该回答

站在线性变换的角度来看矩阵的话。

矩阵(线性变换)作用在一个向量上无非是将该向量伸缩(包括反向伸缩)与旋转。

忽略复杂的旋转变换,只考虑各个方向(特征方向)伸缩的比例,所提取出的最有用,最关键的信息就是特征值了。

编辑于 2013-10-23

26​8 条评论

​分享

​收藏​感谢

四爷

可持续发展

39 人赞同了该回答

就去让你给我接个人,她有很多特征,我会挑几个特典型如长发超级大美女、身材高挑皮肤好。。。其中特征值就是多高,多美,特征向量就是这些分类。。因为不需要给你所有信息,只要几个典型也不会让你找错人,所以能给你降维。

如果你要找女友,只要几个典型如美,高之类的,估计你很快就能在100人中就能找到你心仪的,所以能寻优

编辑于 2015-04-09

39​添加评论

​分享

​收藏​感谢

Richard Li

信息安全爱好者,结果导向的博士狗

24 人赞同了该回答

找了几天, 这个视频(7分钟)是我见过讲解最为直观的, 强烈推荐.

源视频在youtube上:https://www.youtube.com/watch?v=8UX82qVJzYI

为了让国内的童鞋也可以看到, 我把它上传到youku了:

introduction to Eigenvalues and Eigenvectors

另外, 这个简单的网页也挺好的:File:Eigenvectors.gif

不过真的是上面那个视频让我对特征值和特征向量真正有一个直观的认识. youtube上两万多收看, 两百多点up, 没有点down的.

编辑于 2016-08-05

24​5 条评论

​分享

​收藏​感谢

闫星光

Wizard of computation

57 人赞同了该回答

/* 多图预警 */

用特征向量作为基,线性变换会很简单,仅仅是伸缩变换,而特征值就是伸缩的大小。

各位已经说的很清楚了,我就发几张用mathematica做的图吧。

这里只给出一些“可视化”的2D线性变换。

平面当中的一个向量

经过一个线性变换(乘上一个矩阵)之后变成了另一个

的向量

,把它的起点接在

,就可以表示线性变换的特性。再画出一组特征向量,我们就有下图:

颜色越深冷,代表向量长度越小。

可以看出特征向量所在的直线上的向量经过变换之后方向不变,这意味着一个向量的分量是各自独立的,这对于我们分析矩阵、线性变换就方便了很多。

(绿色箭头是矩阵的行向量,红色是特征向量)

只有一个特征值-1的情况:

特征值是虚数的反对称矩阵:

其实做的是动图,可惜知乎不支持动图。

编辑于 2015-04-20

57​4 条评论

​分享

​收藏​感谢收起

陈十三

16 人赞同了该回答

特征向量可以看作坐标向量,特征值就是矩阵在该坐标方向上的分量大小值,特征分析相当于提取矩阵的信息出来吧。较大的特征值对应的特征向量就较为重要,矩阵降维就用的提取主特征向量思想。

发布于 2013-10-30

16​9 条评论

​分享

​收藏​感谢

赖.婷婷

14 人赞同了该回答

假设有一个向量x(特征向量)和矩阵A,Ax的过程相当于矩阵A对向量x做各种 方向上的伸缩变换,变换后的向量为y。而存在特征值t(常数),即说明x通过各种变换得到的y正好与x在一个方向上,只有长度上的变化,中间相差的倍数则为t。Ax=tx

发布于 2014-05-04

14​6 条评论

​分享

​收藏​感谢

知乎用户

DL博士在读

9 人赞同了该回答

仅考虑非奇异矩阵。

以3阶非奇异矩阵

为例,设它的3个特征值(多重特征值就重复写)分别为

,

,

, 对应的特征向量分别为

,

,则

线性无关。

此时任一向量

可表示为

的线性组合,设

,则有

正好是

的各特征向量上分量乘以特征值之和。

编辑于 2015-10-13

9​1 条评论

​分享

​收藏​感谢

知乎用户

学金融的

5 人赞同了该回答

作为研究生数一考了近满分的学酥,居然回答不上这个问题,唉,应试教育害人。。。

从csdn上引用的《线性代数的几何意义》的描述:“矩阵乘法对应了一个变换,是把任意一个向量变成另一个方向或长度都大多不同的新向量。在这个变换的过程中,原向量主要发生旋转、伸缩的变化。如果矩阵对某一个向量或某些向量只发生伸缩变换,不对这些向量产生旋转的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。”

"特征值和特征向量的一个实际应用:'得出使数据在各个维度区分度达到最大的坐标轴。' "

编辑于 2017-04-11

5​1 条评论

​分享

​收藏​感谢

KevinSun

4 人赞同了该回答

特征值首先是描述特征的。比如你的图片是有特征的,并且图片是存在某个坐标系的。特征向量就代表这个坐标系,特征值就代表这个特征在这个坐标方向上的恭喜。总之,就是代表在对应左边轴上的特征大小的贡献

发布于 2014-05-04

4​5 条评论

​分享

​收藏​感谢

路过猴

心态好少年,

2 人赞同了该回答

我脑补了一下…

假设有一个图形,经过某个矩阵的线性变换,变成了另一个图形。

变换后图形与原有图形相同元素变化最大的方向和倍数,就是特征向量和特征值。

不知道形不形象,有觉得哪里不妥可以提一下。

在别的答案里看到了一个网页的一张图,感觉很形象。

变换后

编辑于 2016-12-01

2​添加评论

​分享

​收藏​感谢收起

西雅图老李

NLP/ML/

2 人赞同了该回答

从PAGERANK算法角度出发,多次进行迭代R=MR得出收敛的向量即为特征向量。参考特征向量的定义:aR=MR,把a(一个数)除到右边去及有R=M1 R,M1=M/a.以上就是pagerank算法的简易数学支撑。

发布于 2015-01-09

2​添加评论

​分享

​收藏​感谢

寒山一笑

2 人赞同了该回答

看了一圈各位的回答,很失望。

【熟肉】线性代数的本质 - 10 - 特征向量与特征值看完这个视频,自然就懂了。如果看不懂,那就从第一集看。要理解特征向量、特征值,前提是你首先要明白什么是矩阵。矩阵就是坐标系的变换。特征向量就是坐标系在变换时方向不发生变换的向量,其所在的直线构成特征空间。特征值就是特征向量大小的改变量。我这么说你们肯定会说太抽象。看视频中的图,一点也不抽象,最直观!

排名第一的答案把特征向量和特征值解读为运动方向和速度,把简单的问题复杂化,变得更难理解了!说看懂的估计心里都是似懂非懂…

发布于 2017-11-28

2​1 条评论

​分享

​收藏​感谢

hgq

架构师

1 人赞同了该回答

解释特征值特征向量的表达式的物理意义

相似矩阵定义为在不同坐标基底下的同一个变换

有线性变换y=Ax (1),x、y为矢量,A为变换矩阵

设在一个正交单位坐标体系P下,同样的变换可以简化为对角的乘积

即,在P坐标体系内,同样变换表示为ƛa=b (2),ƛ为基底P下的变换矩阵

由于x、y和a、b是表示同一个矢量,但在不同的基底下,有基底变换为:x=Pa,y=Pb (3)

代入式1,得:Pb=APa,

代入式2,=> Pƛa=APa

=>AP=Pƛ即得特征值特征向量表达式推导

以上表达式还可以直接理解为A(PI)=P(ƛI),解释为在基底P下的单位向量I,通过转换为基底为E向量PI然后再进行A变换,结合和直接在基底P下,用I进行ƛ等价变换ƛI然后转换到基底E的结果相同。

发布于 2016-10-10

1​1 条评论

​分享

​收藏​感谢

jiyang

1 人赞同了该回答

真的太感谢这个帖子了 各位的理解和讲述让我终于理解信号处理里 beamforming部分运用subspace手段进行信号估计的意义了!!

这里如果有P个sensors和M个sources( M>P)

那么处理的时候首先用这个公式:

计算出特征值

,λ1 ≥ λ2 ≥ · · · ≥ λM,它是从大到小rank的

然后以P为界限把他们分开,即大于等于

的特征值规定为信号,小于

的特征值即为噪声

将自相关分解也即投影在signal 和 noise subspaces以后,还起到了降维度的作用,估计起来更加准确快速!谢谢各位提点!

发布于 2016-05-24

1​添加评论

​分享

​收藏​感谢

九铭书记

2 人赞同了该回答

特征值后面对于解矩阵微分方程也有很大作用。矩阵的特征值是一种线性变换,可以理解为在坐标轴上(可以为多维度坐标轴)的一种拉伸变换

发布于 2014-05-05

2​添加评论

​分享

​收藏​感谢

孙吉刚

研究生

1 人赞同了该回答

有些特征值相等如何解释?

发布于 2015-03-31

1​2 条评论

​分享

​收藏​感谢

Expect

了解一切

如何理解特征值和特征向量 - ljhandlwt - CSDN博客这个解答挺好的

发布于 2017-11-23

0​添加评论

​分享

​收藏​感谢

xinkai chen

换个方式从算子理解奇异值分解:任何算子T的变换都可以等效地分为两步,1)用算子

对v在本征向量的方向上进行伸缩,由于正算子

是正规的,它必有n个正交的本征向量。2) 用等距同构算子将伸缩完的本征向量保范数地旋转到一组新的方向上。由于是等距同构算子,各个正交的本征向量的夹角关系保持不变,因此旋转完还是正交的。

简单地说,任何线性算子都可以按特定的规范正交基方向先伸缩再保范数旋转的方式完成变换

发布于 2017-03-23

0​添加评论

​分享

​收藏​感谢

知乎用户

菜鸟程序猿

https://www.youtube.com/playlist?list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab

这个视频里的解释也非常好

发布于 2016-11-15

0​添加评论

​分享

​收藏​感谢

evellin

统计学

特征值的现实意义还需要结合各研究领域。

发布于 2016-11-01

0​添加评论

​分享

​收藏​感谢

Morel

道之将行也与?命也!道之将废也与?命也!

对于正定对称矩阵A而言,考虑其二次型y=xAx,函数y=1其实是n维空间中的椭球(中心在原点,但对称轴一般不是坐标轴),椭球有n对顶点,矩阵A的特征向量即为这个椭球的对称轴(原点与顶点连线方向)方向,其对应的特征值即为椭球在该特征向量方向的顶点到原点距离平方的倒数!

当然如果直接计算特征向量,有可能会出现对应某个特征值的特征向量有好几个方向,但对于正定矩阵总可以选取满足上面的特征向量!

发布于 2016-10-06

0​添加评论

​分享

​收藏​感谢

田圣双

工程师

自己的理解,特征值相同的情况就是相同的模态,越密集的特征值附近越容易发生振动。

发布于 2016-10-04

0​添加评论

​分享

​收藏​感谢

renguangqian

数学业余爱好者

特征值是复数的时候确实有意思,特征向量是被伸缩和旋转了,但我觉得特征向量被旋转及伸缩时具有一定的往复规律性或着稳定性,这和普通向量的伸缩+旋转的不确定性不同。另外如果只看实域轴内,特征向量还是被伸缩了,没有旋转(但在复平面确实旋转着)。

实际上(电子)振荡器的特征值就是一复数,特征向量就是输出的复合振荡信号,振荡信号在周而复始的运动中,如果只看向量中的一个量如电压,把时间轴压缩到原点的话,振荡幅度(实域信号)就是在上下伸缩着。

上述分析细节非数学专业人士推荐参考”线性代数的几何意义“资料。

发布于 2015-10-12

0​添加评论

​分享

​收藏​感谢

vigor tan

a

特征值是复数如何解释?

如果特征值是复数所对应的特征向量 代表旋转+伸缩, 但是对任何一个向量做任何线性变换都是选择+伸缩,那复数特征值所对应的特征向量,和普通的向量又有何不同?

发布于 2015-07-31

0​添加评论

​分享

​收藏​感谢

知乎用户

学生

二阶矩阵乘以向量,得到一个向量

其实这个二阶矩阵可以看成一个复变函数

所谓特征向量,其实就好比函数的不动点,经过函数映射以后,方向不变。

在复平面,如果两个复数的辐角相同或者相差180°,那么做除法会得到一个实数。

那么我们计算

根据复数的除法法则,我们只需要使

那么只需使它的虚部为0,即

得:

这个二次方程一定可以分解成两个一次方程的积,

我们令

时,有2个实特征向量。

时,有1个实特征向量。

时,不存在实特征向量。

编辑于 2017-11-21

日记本
Web note ad 1