第三章 线性模型

1、基本形式

给定由d个属性描述的示例x=(x1;x2;...;xd),其中xi是x在第i个属性上的取值。

通过属性的线性组合来进行预测的函数:

f(x)=w_1x_1+w_2x_2+...+w_dx_d+b,

一般向量形式:

f(x)=w^Tx+b,

w和b学得后,线性模型就确定下来。
(w可理解为各属性的重要性,即所占权重值)

2、线性回归

线性回归即是学得一个线性模型来尽可能预测实值输出标记。
给定数据集D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},其中x_i=(x_i1;x_i2;...;x_id),y_i \in R.
先讨论简单的情形,输入属性的数目只有一个。在此之前我们对于离散属性,若属性间有序,则可以转化为连续值,例如高矮,长短;若属性无序,则转化为k维向量(k个属性),例如品种、颜色......

f(x_i)=wx_i+b,使f(x_i)\approx y_i.

通过均方误差最小来确定w和b:
(w^*,b^*)=arg_(w,b)min \sum_{i+1}^{m}(f(x_i)-y_i)^2=arg_(w,b)min \sum_{i+1}^{m}(y_i-wx_i-b)^2

于是我们要得到使\sum_{i+1}^{m}(y_i-wx_i-b)^2最小的w和b。
接下来我们要对w和b分别求导,然后令两式为零,得到w和b的最优解的闭式解
具体过程就略过了,基本的高数求导解析过程。可参考:南瓜书
上面是对于一种属性的最简单的情形,下面讲更一般的情形,我们试图学得:

f(x_i)=w^Tx_i+b,使得f(x_i) \approx y_i.(多元线性回归)

对于多元,我们需要用到线性代数的一些基本知识。
对于w和b,我们将其列成一个向量形式\widehat{w}=(w;b),再将数据集D化成矩阵形式X:

X= \left\{ \begin{matrix} x_{11} & x_{12} &\cdots & x_{1d} & 1 \\ x_{21} & x_{22} &\cdots & x_{2d} &1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{matrix} \right\}= \left\{ \begin{matrix} x_{1}^T &1 \\ x_{2}^T & 1\\ \vdots & \vdots \\ x_{m} ^T & 1 \end{matrix} \right\}

标记化成向量形式y=(y_i;y_2;...;y_m)
对于向量形式我们依旧求均方误差最小值,即有:

\widehat{w}^*=arg(\widehat{w})min(y-X\widehat{w})^T(y-X\widehat{w}).

同样对\widehat{w}进行求导,令式子为零得到\widehat{w}的最优解的闭式解。其间涉及到逆矩阵的计算。于是有以下情况:
X^TX为满秩矩阵,即行与列相等。可学得:

f(\widehat{w}_i) = \widehat{w}_i^T(X^TX)^{-1}X^Ty.

然鹅,现实情况往往不是满秩的,毕竟数目与样例会不一致。于是就可解出多个\widehat{w},都满足均方误差最小。于是我们引入正则化项以选择一个解作为输出。何为正则化?正则化
对于线性回归模型,可以使用对数线性回归:

lny = w^T+b

其试图让e^{w^Tx+b}逼近y,于是起到了将线性回归的预测值与真实标记联系起来的作用。
更一般的,考虑单调可微函数g(·),令:

y=g^{-1}(w^Tx+b)

即广义线性模型。g(·)为联系函数,对于对数线性回归,是广义线性模型的一个特例,在g(·)=ln(·)时。

对数几率回归

上面是对于回归任务使用的单调可微函数,而下面讲分类任务。
对于二分类任务,输出标记为y={0,1},但线性回归模型产生的预测值是实值,所以需要将实值转成0/1值,理想:单位阶跃函数,即:

y = \begin{cases} 0, & z < 0; \\ 0.5, & z=0 ;\\ 1,&z>0, \end{cases}

但是单位阶跃函数不是连续函数,故不能作为g^{-}(·),于是我们引入对数几率函数来代替单位阶跃函数:

y = \frac {1} {1+e^{-z}}

于是我们将z=w^Tx+b代入上式,且与回归任务类似可变化为:

ln \frac{y}{1-y}=w^Tx+b

y为正例可能性,1-y则为反例可能性,二者比值即为“几率”,取其对数即为“对数几率”。

那么如何确定w和b呢?
如果将y视作概率p(y=1|x),则1-y则为p(y=0|x),于是有:

p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}
p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}

于是我们通过极大似然估计来估计w和b:

l(w,b) = \sum_{i=1}^mlnp(y_i|x_i;w,b)

对于上式,我们可以进一步简化,令\beta=(w,b) ,\widehat{w}=(x;1).(使原式变为最小化式)最后得到l(\beta).(过程依旧可以参考南瓜书)
对于此高阶可导连续凸函数,可以用梯度下降算法、牛顿法等来求其最优解。

线性判别分析

对于分类任务,LDA也是一种经典的线性学习方法。其基本思想:给定训练样例集,将样例投影到一条直线上,使同类样例的投影点尽可能接近,异类尽可能远离。对新样本分类时,可以根据投影点的位置来判别样本的类别。
对于二分类任务,我们只需要让同类样例投影点的协方差可能小,类中心之间的距离尽可能大。w^T\sum{_0}w+w^T\sum{_1}w为协方差,||w^Tu_0-w^Tu_1||_2^2为距离,其中数据集D=\{(x_i,y_i)\}_{i=1}^m,y_i \in\{0,1\},X_i表示第i\in\{0,1\}类示例的集合,u_i为均值向量,\sum{_i}为协方差矩阵。
于是有:

J=\frac{||w^Tu_0-w^Tu_1||_2^2}{w^T\sum{_0}w+w^T\sum{_1}w}=\frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum{_0}+\sum{_1})w}.

我们要令上式最大化。
引入类内散度矩阵:S_w=\sum{_0}+\sum{_1}
类间散度矩阵:S_b=(u_0-u_1)(u_0-u_1)^T
代入得:J = \frac{w^TS_bw}{w^TS_ww}
对于此式,由于w在分子分母都是二次项,于是只与其方向有关,则令w^TS_ww=1,于是我们要使-w^TS_bw最小化,由拉格朗日乘子法得到:S_bw=\lambda S_ww.

考虑到方向,则S_b的方向恒为(u_0-u_1),将其代入上式,再化成:w=S_w^{-1}(u_0-u_1)
对于此式,我们需要对S_w进行奇异值分解,即有:S_w=U\sum{^{-1}}V^T,其中U为酉矩阵\sum是一个实对角矩阵,其对角线上的元素是S_w的奇异值,于是求S_w^{-1}=V\sum{^{-1}}U^T.

以上是对于二分类任务,那么推广到多分类任务中,存在N个类,第i类示例数为m_i,全局散度矩阵:

S_t=S_w+S_b=\sum_{i=1}^m(x_i-u)(x_i-u)^T

其中u是所有示例的均值向量,则类内散度矩阵即每个类别的散度矩阵之和。
到这里就不进行赘述了,简单地讲一下,我们根据自定义的三个矩阵:S_t=S_w+S_b,根据这关系,我们知其二可知全部。如何实现?可采用优化目标(即求使 类内散度矩阵和类间散度矩阵的广义瑞利商最大 的W值),接下来就是与二分类任务一样,通过广义特征值问题求解:S_bw=\lambda S_ww.于是W的闭式解是S^{-1}_wS_bd^{’}<=N-1个最大非零广义特征值所对应的特征向量组成的矩阵。关于什么是广义特征值,什么是特征向量:

求数λ,使方程Ax=λBx有非零解x,这里A为n阶实对称矩阵,B为n阶实对称正定矩阵,x为n维列向量,则称该问题为矩阵A相对于矩阵B的广义特征值问题,称满足上式要求的数λ为矩阵A相对于矩阵B的特征值,而与λ相对应的非零解x称为属于λ的特征向量。

LDA通过投影来减小样本点维数,投影过程使用类别信息,说明其也是一种监督降维的技术。

多分类问题

其实现实情况中,有些二分类学习任务可以直接推广到多分类任务,但我们大多数情况下是使用基本策略,用二分类学习器来解决对分类任务的。
拆解法:即将多分类任务拆分为多个二分类任务来求解。
拆分策略
1、一对一(OvO):简单来说就是把数据集样例两两配对,然后为每队训练一个分类器,最后测试时,将新样本同时提交给所有分类器,得到最终结果是被预测得最多的类别;
2、一对其余(OvR):每次将一个类的样例作为正例,其他的作为反例进行训练多个分类器,测试时,若仅有一个分类器预测为正,则其对应的类别标记作为最终结果,否则选择置信度最大的类别标记作为结果;
3、多对多(MvM):将若干类作为正,若干作为反,那么该如何选取,此时我们需要用到“纠错输出码”,对N个类进行M次划分,每次划分将部分作反,部分作正,训练出M个分类器;测试时,预测标记组成一个编码,将预测编码与每个类别的编码进行对比,选取其中距离最小的类别作为最终结果。

类别不平衡问题

分类任务中不同类别的训练样例数差别很大的问题。基本策略就是再缩放
但此策略难以实现,无法达成假设。于是根据现有技术我们有三种方法:
1、欠采样:去反,使正反接近(不是随便去反,可将反例划分成多个集合,供不同学习器使用)
2、过采样:增正,使正反接近(不是对初始的正例进行重复采样,可通过对正例的插值来产生额外的正例)
3、阈值移动:使用原始数据集,但将“再缩放”嵌入其决策过程

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,825评论 4 377
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,887评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,425评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,801评论 0 224
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,252评论 3 299
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,089评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,216评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 31,005评论 0 215
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,747评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,883评论 2 255
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,354评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,694评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,406评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,222评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,242评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,017评论 2 281

推荐阅读更多精彩内容