判别分析(Fisher判别方法)

20210308 未完更新中

前言

为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。

Fisher判别分析的基本思想:选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本类内离差平方和尽可能小,而使各样本类间的离差平方和尽可能大。

fisher判别方法示意图

1. 两个总体的Fisher判别函数

①设已知有两个类x^1x^2,在已知的数据中,x^1类有N_1个个体,x^2类有N_2个个体,即:
\{ x_j^1|j=1,2,…,N_1 \} :x_1^1,x_2^1,…,x_{N_1}^1
\{ x_j^2|j=1,2,…,N_2 \} :x_1^2,x_2^2,…,x_{N_2}^2

注意:个体x_j^i为列向量,列向量的元素为不同特征的具体数值。如,小明身高180,体重70,可以设小明这个个体为x=[180,70]^T
②计算两个类的均值
m_1=\frac{1}{N_1} \sum_{j=1}^{N_1}{x^1_j}    m_2=\frac{1}{N_2} \sum_{j=1}^{N_2}{x^2_j}
③计算两个类的类内离差平方和矩阵:
S_{w1}=\sum_{j=1}^{N_1}{(x_j^1-m_1)(x_j^1-m_1)^T} S_{w2}=\sum_{j=1}^{N_2}{(x_j^2-m_2)(x_j^2-m_2)^T}
总的离差阵为S_w=S_{w1}+S_{w2}
类间离差阵为S_t=(m_1-m_2)(m_1-m_2)^T
④设需要找的投影向量为u,将所有的个体x投影到u方向上,则可以得到投影后的结果为y^i_j=u^Tx^i_j,即:
第一类个体在u方向上的投影结果为:y_1^1,y_2^1,…,y_{N_1}^1
第二类个体在u方向上的投影结果为:y_1^2,y_2^2,…,y_{N_2}^2
⑤计算投影后两类的均值与类内离差平方和矩阵
\hat{m}_1=\frac{1}{N_1} \sum_{j=1}^{N_1}{y^1_j}=\frac{1}{N_1}u^T \sum_{j=1}^{N_1}{x^1_j}=u^Tm_1

\hat{m}_2=\frac{1}{N_2} \sum_{j=1}^{N_2}{y^2_j}=\frac{1}{N_2}u^T \sum_{j=1}^{N_2}{x^2_j}=u^Tm_2

\hat{S}_{w1}=\sum_{j=1}^{N_1}({y^1_j}-\hat{m}_1)({y^1_j}-\hat{m}_1)^T=u^TS_{w1}u

\hat{S}_{w2}=\sum_{j=1}^{N_2}({y^2_j}-\hat{m}_2)({y^2_j}-\hat{m}_2)^T=u^TS_{w2}u

总离差:
\hat{S}_{w}=\hat{S}_{w1}+\hat{S}_{w2}

类间方差:
\hat{S}_{t}=(\hat{m}_1-\hat{m}_2)(\hat{m}_1-\hat{m}_2)^T=u^TS_{t}u

⑥要使得在新的(投影后)数据空间中,数据的分离性能最好,即要使得两个类的类内距离最小,类间距离最大,建立目标函数J_f(u)=\frac{u^TS_tu}{u^TS_wu},希望找到合适的投影向量u,使得目标函数J_f(u)达到最大。

采用Lagrange乘数法求解。令分母等于非零常数,即:
{u^TS_wu}=c≠0

定义lagrange函数为
L(u)=u^TS_tu-\lambda (u^TS_wu-c)

u求偏导得
\frac{\partial L(u)}{\partial u}=u^T(S_t+S_t^T)-\lambda u^T(S_w+S_w^T)

又矩阵S_tS_w是对称矩阵,因此,上式可化简为
\frac{\partial L(u)}{\partial u}=2u^TS_t^T-2\lambda u^TS_w^T

\frac{\partial L(u)}{\partial u}=0,有
u^TS_t^T-\lambda u^TS_w^T=0

记上式得解为u_o,则
u_0^TS_t^T-\lambda u_0^TS_w^T=0
继续化简有:
S_tu_0=\lambda S_wu_o

两边同时左乘S_w^{-1}得:
S_w^{-1}S_tu_0=\lambda u_o

因此,u即为矩阵S_w^{-1}S_t的最大特征值对应的特征向量


S_t=(m_1-m_2)(m_1-m_2)^T


\lambda u_0=S_w^{-1}S_tu_0=S_w^{-1}(m_1-m_2)(m_1-m_2)^Tu_0

u_0=S_w^{-1}S_tu_0=S_w^{-1}(m_1-m_2)(m_1-m_2)^Tu_0/\lambda

(m_1-m_2)^Tu_0/\lambda为一标量,因此

C=(m_1-m_2)^Tu_0/\lambda


u_0=S_w^{-1}(m_1-m_2)C

而标量C并不会影响u的投影方向。
综上所述,u的解为
u_0=S_w^{-1}(m_1-m_2)

2. 举例说明——蠓虫分类问题

2.1 问题描述

3. Fisher判别法的优缺点

  • 在一定程度上能够克服数据高维距离度量无效性带来的困扰,但维度越高,带来的后续计算越困难;
  • 通过投影一方面使得数据更加集中,另一方面,维度的降低更容易进行判别;
  • 矩阵求逆及特征向量计算使得计算量加大;
  • 对于多个类的分类标准,需要两两抽取分类准则。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容