第十五课 奇异值分解

本讲大纲:

  1. 潜在语义索引(Latent Semantic Indexing)
  2. 奇异值分解(Singular value decomposition )
  3. 独立成分分析(Independent Component Analysis)

逻辑关系
LSI潜在语意索引是PCA主成分分析的一个应用,而SVD奇异值分解是LSI(PCA)的一个实现。
ICA独立成分分析是务监督学习的一种。

1. 隐含语意索引 LSI

参考:http://blog.csdn.net/u011450885/article/details/46500901
是自然语言处理的一项技术,在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。
分类的关键是计算相关性。我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。当然,夹角的余弦等同于向量的内积。从理论上讲,这种算法非常好。但是计算时间特别长。
主成分分析中隐含语音索引的意思就是,通过降维的手段,将意义相同的词映射到低维空间中的同一个维度上去。

2. 奇异值分解 SVD

如果用一个矩阵来表示一百万篇文章和五十万词的关联性,每一行对应一篇文章,每一列对应一个词:


这个矩阵的元素个数非常巨大。行数M=1,000,000,列数N=500,000。

奇异值分解就是把上面这样一个大矩阵,分解成三个小矩阵相乘,如下图所示。这三个矩阵的元素总数远远小于上面的大矩阵A。以此来降低存储量和计算量。


三个矩阵有非常清楚的物理含义。

  • 第一个矩阵X中的每一列表示一类主题,其中的每个非零元素表示一个主题与一篇文章的相关性,数值越大越相关。
  • 最后一个矩阵Y中的每一列表示100个关键词,每个key word与500,000个词的相关性。
  • 中间的矩阵则表示文章主题和keyword之间的相关性。是对角矩阵。
  • 总结来说就是从直接求文章和单词的关联性,转化为求文章<->主题,主题<->关键词,关键词<->单词的相关性。
    因此,我们只要对关联矩阵A进行一次奇异值分解,w 我们就可以同时完成了近义词分类和文章的分类。(同时得到每类文章和每类词的相关性)。

应用:个性化推荐、文本及web挖掘、降噪

扩展:奇异值分解的几何意义
参考,推荐:http://blog.chinaunix.net/uid-20761674-id-4040274.html
矩阵线性变换的几何解释,很清楚:http://blog.sciencenet.cn/home.php?mod=space&uid=696950&do=blog&quickforward=1&id=699380

</br>

3. 独立成分分析 ICA

3.1 基本概念

</br>
首先区分两个概念:

  • 线性非相关,指协方差为0。描述两个变量整体的数值表现,它们在整体上没有出现数值一起改变迹象。但是未必两个变量之间没有相互影响。
  • 相互独立描述更加本质,它要求两个变量时时刻刻都的确不会相互影响,等价于f(x,y)=g(x)h(y)。

与PCA主成分分析的区别

首先相同点是目的都是找到一个方向,即一个n维向量w,使得线性组合wTx的某种特征最大化。

  • 主成分分析假设源信号间彼此非相关,独立成分分析假设源信号间彼此独立。
  • 主成分分析认为主元之间彼此正交,样本呈高斯分布;独立成分分析则要求样本不呈高斯分布。

理解:经典鸡尾酒会问题


其中s代表人,x代表话筒,A是距离。x已知,s和A未知,需要推出s。



</br>

3.2 ICA的算法

参考:http://blog.csdn.net/u012409883/article/details/17091383

  • 1、预处理部分:
    (1)对X零均值处理
    (2)球化分解(白化)
    即:乘球化矩阵S,使Z=SX各行正交归一,即ZZ’=I意义:消除原始各道数据间二阶相关,以后只需要考虑高阶矩量(因为独立时各阶互累积量为0),使很多运算过程简化。

  • 2、核心算法部分:
    寻求解混矩阵U,使Y=UZ,Y各道数据尽可能独立(独立判据函数G)。
    注意:
    (1)、由于Y独立,各行必正交。且通常取U保持Y各行方差为1,故U是正交变换。
    (2)、所有算法预处理部分相同,以后我们都设输入的为球化数据z,寻找正交矩阵U,使Y=Uz独立。由于独立判据函数G的不同,以及步骤不同,有不同的独立分量分析法。

  • 3、Fast ICA算法思路:属于探查性投影追踪 ICA
    目的:输入球化数据z,经过正交阵U处理,输出Y=Uz
    (1)输入球化数据z,经过正交阵某一行向量ui处理(投影),提取出某一独立分量yi.
    (2)将此分量除去,按次序依次提取下去,得到所有的yi ,以及ui。得到独立的基向量U
    U=WX

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,504评论 4 365
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,898评论 1 300
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,218评论 0 248
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,322评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,693评论 3 290
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,812评论 1 223
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,010评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,747评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,476评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,700评论 2 251
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,190评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,541评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,206评论 3 240
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,129评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,903评论 0 199
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,894评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,748评论 2 274

推荐阅读更多精彩内容