PCA算法推导

PCA理解与应用。

Motivation

  • PCA与Factor analysis非常相似,都是主要用于reduction data dimensions。但PCA的想法相比于Factor analysis更简单,实现起来也更加直观和容易(只需要算特征值)。
  • PCA tries to identify the subspace in which the data approximately lies.
  • 一个很简单的例子是,我们的数据中可能存在很多属性是高度相关的,那么这些属性实际上是有冗余的,如果我们直接用原始数据进行训练,有可能会受到Curse of dimensionality,同时增大计算量,增加模型过拟合的程度。

算法流程

数据预处理

首先,我们需要对数据进行标准化:
\begin{array}{l}{\text { 1. Let } \mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}} \\ {\text { 2. Replace each } x^{(i)} \text { with } x^{(i)}-\mu} \\ {\text { 3. Let } \sigma_{j}^{2}=\frac{1}{m} \sum_{i}\left(x_{j}^{(i)}\right)^{2}} \\ {\text { 4. Replace each } x_{j}^{(i)} \text { with } x_{j}^{(i)} / \sigma_{j}}\end{array}
这里让数据的每个维度的期望变为0,方差变为1,使得不同维度具有可比性。

推导

PCA有多种推导方式,最直观的方式是最大方差和最小平方误差。

最大方差理论

在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。

一个直观的想法是,我们从m维的feature space投影到m-1维到feature subspace时,希望使得其方差能最大化的得到保留(也就是数据之间的差异性保留越多越好)

设投影到新的单位向量u中,那么投影点和原点的距离是x^Tu。我们的目标是求最佳的u,使得投影后的样本点方差最大。

由于这些样本点(样例)的每一维特征均值都为 0,因此投影到 u 上的样本点(只 有一个到原点的距离值)的均值仍然是 0。

因此我们只需要方差最大化,而方差就是投影点到原点的距离的平方和:
\begin{aligned} \frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)^{T}} u\right)^{2} &=\frac{1}{m} \sum_{i=1}^{m} u^{T} x^{(i)} x^{(i) T} u \\ &=u^{T}\left(\frac{1}{m} \sum_{i=1}^{m} x^{(i)} x^{(i)^{T}}\right) u \end{aligned}
可以通过简单的Lagrange变换,得到目标函数的最大值就等于求最大的特征向量。

因此,我们只需要对协方差矩阵进行特征值分解,得到的前 k 大特征值对应的特征向量 就是最佳的 k 维新特征,而且这 k 维新特征是正交的。得到前 k 个 u 以后,样例X^{(i)}通过以下变换可以得到新的样本。
y^{(i)}=\left[ \begin{array}{c}{u_{1}^{T} x^{(i)}} \\ {u_{2}^{T} x^{(i)}} \\ {\vdots} \\ {u_{k}^{T} x^{(i)}}\end{array}\right] \in \mathbb{R}^{k}
通过选取最大的 k 个 u,使得方差较小的特征(如噪声)被丢弃。

最小平方误差理论

回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为最佳的直线就是回归后的直线呢?回归时我们的最小二乘法度量的是样本点到直线的坐标轴距离。

我们打算选用另外一种评价直线好坏的方法,使用点到直线的距离 d’来度量。

将样本点x_k在直线上的投影记为x_k^{'},那么我们就是要最小化
\sum_{\mathrm{k}=1}^{n}\left\|\left(\mathrm{x}_{k}^{\prime}-x_{\mathrm{k}}\right)\right\|^{2}
这个公式称作最小平方误差(Least Squared Error)。

而确定一条直线,一般只需要确定一个点,并且确定方向即可。(推导可参考这里

应用

  1. PCA 将 n 个特征降维到 k 个,可以用来进行数据压缩,如果 100 维的向量最后可以用 10 维来表示,那么压缩率为 90%。同样图像处理领域的 KL 变换使用 PCA 做图像压缩。但 PCA 要保证降维后,还要保证数据的特性损失最小。
  2. 可用于数据预处理,减少feature space的大小,从而减少运算,减少overfitting。
  3. 可用于noise reduction algorithm。
  4. Match/define better calculation
    • 例如在人脸相似度匹配中,一个图像中属于人脸的并不是主要部分,而大部分都是噪声,因此我们可以使用PCA降维,使得某些维度能够衡量脸的形状大小等等。
    • 在计算相似度时,将两个图像通过PCA投影到子空间,再通过距离度量。

总结

  • PCA 的思想是将 n 维特征映射到 k 维上(k<n),这 k 维是全新的正交特征。这 k 维特征称为主元,是重新构造出来的 k 维特征,他们能从方差的角度最大化的保留数据存在的差异,并减少维度。
  • PCA 技术的一个很大的优点是,它是完全无参数限制的。在 PCA 的计算过程中完全不 需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关, 与用户是独立的。
    • 但是,这一点同时也可以看作是缺点。如果用户对观测对象有一定的先验知识,掌握了 数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的 效果,效率也不高。
  • 有时数据的分布并不是满足高斯分布。如图表 5 所示,在非高斯分布的情况下,PCA 方法得出的主元可能并不是最优的。在寻找主元时不能将方差作为衡量重要性的标准。

Reference

  1. A TUTORIAL ON PRINCIPAL COMPONENT ANALYSIS
  2. CS229 notes10
  3. http://www.cmlab.csie.ntu.edu.tw/~cyy/learning/tutorials/PCAMissingData.pdf
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容