第三章线性模型

1、基本形式

给定由d个属性描述的示例x=(x₁;x₂;...;x_d),其中x_i是x在第i个属性上的取值。

通过属性的线性组合来进行预测的函数：

$f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$ ,

一般向量形式：

$f(x)=w^Tx+b$ ,

w和b学得后，线性模型就确定下来。
（w可理解为各属性的重要性，即所占权重值）

2、线性回归

线性回归即是学得一个线性模型来尽可能预测实值输出标记。
给定数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ,其中 $x_i=(x_i1;x_i2;...;x_id),y_i \in R$ .
先讨论简单的情形，输入属性的数目只有一个。在此之前我们对于离散属性，若属性间有序，则可以转化为连续值，例如高矮，长短；若属性无序，则转化为k维向量（k个属性），例如品种、颜色......

$f(x_i)=wx_i+b,使f(x_i)\approx y_i$ .

通过均方误差最小来确定w和b：
$(w^*,b^*)=arg_(w,b)min \sum_{i+1}^{m}(f(x_i)-y_i)^2=arg_(w,b)min \sum_{i+1}^{m}(y_i-wx_i-b)^2$

于是我们要得到使 $\sum_{i+1}^{m}(y_i-wx_i-b)^2$ 最小的w和b。
接下来我们要对w和b分别求导，然后令两式为零，得到w和b的最优解的闭式解。
具体过程就略过了，基本的高数求导解析过程。可参考：南瓜书。
上面是对于一种属性的最简单的情形，下面讲更一般的情形，我们试图学得：

$f(x_i)=w^Tx_i+b,使得f(x_i) \approx y_i$ .(多元线性回归)

对于多元，我们需要用到线性代数的一些基本知识。
对于w和b，我们将其列成一个向量形式 $\widehat{w}=(w;b)$ ,再将数据集D化成矩阵形式X：

$X= \left\{ \begin{matrix} x_{11} & x_{12} &\cdots & x_{1d} & 1 \\ x_{21} & x_{22} &\cdots & x_{2d} &1\\ \vdots & \vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \end{matrix} \right\}= \left\{ \begin{matrix} x_{1}^T &1 \\ x_{2}^T & 1\\ \vdots & \vdots \\ x_{m} ^T & 1 \end{matrix} \right\}$

标记化成向量形式 $y=(y_i;y_2;...;y_m)$
对于向量形式我们依旧求均方误差最小值，即有：

$\widehat{w}^*=arg(\widehat{w})min(y-X\widehat{w})^T(y-X\widehat{w})$ .

同样对 $\widehat{w}$ 进行求导，令式子为零得到 $\widehat{w}$ 的最优解的闭式解。其间涉及到逆矩阵的计算。于是有以下情况：
若 $X^TX$ 为满秩矩阵，即行与列相等。可学得：

$f(\widehat{w}_i) = \widehat{w}_i^T(X^TX)^{-1}X^Ty$ .

然鹅，现实情况往往不是满秩的，毕竟数目与样例会不一致。于是就可解出多个 $\widehat{w}$ ,都满足均方误差最小。于是我们引入正则化项以选择一个解作为输出。何为正则化？正则化
对于线性回归模型，可以使用对数线性回归：

$lny = w^T+b$

其试图让 $e^{w^Tx+b}逼近y$ ，于是起到了将线性回归的预测值与真实标记联系起来的作用。
更一般的，考虑单调可微函数g(·)，令：

$y=g^{-1}(w^Tx+b)$

即广义线性模型。g(·)为联系函数，对于对数线性回归，是广义线性模型的一个特例，在g(·)=ln(·)时。

对数几率回归

上面是对于回归任务使用的单调可微函数，而下面讲分类任务。
对于二分类任务，输出标记为y={0,1},但线性回归模型产生的预测值是实值，所以需要将实值转成0/1值，理想：单位阶跃函数，即：

$y = \begin{cases} 0, & z < 0; \\ 0.5, & z=0 ;\\ 1,&z>0, \end{cases}$

但是单位阶跃函数不是连续函数，故不能作为 $g^{-}(·)$ ,于是我们引入对数几率函数来代替单位阶跃函数：

$y = \frac {1} {1+e^{-z}}$

于是我们将 $z=w^Tx+b$ 代入上式，且与回归任务类似可变化为：

$ln \frac{y}{1-y}=w^Tx+b$

y为正例可能性，1-y则为反例可能性，二者比值即为“几率”，取其对数即为“对数几率”。

那么如何确定w和b呢？
如果将y视作概率p(y=1|x)，则1-y则为p(y=0|x)，于是有：

$p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}$
$p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}$

于是我们通过极大似然估计来估计w和b：

$l(w,b) = \sum_{i=1}^mlnp(y_i|x_i;w,b)$

对于上式，我们可以进一步简化，令 $\beta=(w,b) ，\widehat{w}=(x;1)$ .（使原式变为最小化式）最后得到 $l(\beta)$ .(过程依旧可以参考南瓜书)
对于此高阶可导连续凸函数，可以用梯度下降算法、牛顿法等来求其最优解。

线性判别分析

对于分类任务，LDA也是一种经典的线性学习方法。其基本思想：给定训练样例集，将样例投影到一条直线上，使同类样例的投影点尽可能接近，异类尽可能远离。对新样本分类时，可以根据投影点的位置来判别样本的类别。
对于二分类任务，我们只需要让同类样例投影点的协方差可能小，类中心之间的距离尽可能大。 $w^T\sum{_0}w+w^T\sum{_1}w$ 为协方差， $||w^Tu_0-w^Tu_1||_2^2$ 为距离,其中数据集 $D=\{(x_i,y_i)\}_{i=1}^m,y_i \in\{0,1\}$ , $X_i$ 表示第 $i\in\{0,1\}$ 类示例的集合， $u_i$ 为均值向量， $\sum{_i}$ 为协方差矩阵。
于是有：

$J=\frac{||w^Tu_0-w^Tu_1||_2^2}{w^T\sum{_0}w+w^T\sum{_1}w}=\frac{w^T(u_0-u_1)(u_0-u_1)^Tw}{w^T(\sum{_0}+\sum{_1})w}$ .

我们要令上式最大化。
引入类内散度矩阵： $S_w=\sum{_0}+\sum{_1}$
类间散度矩阵： $S_b=(u_0-u_1)(u_0-u_1)^T$
代入得： $J = \frac{w^TS_bw}{w^TS_ww}$
对于此式，由于w在分子分母都是二次项，于是只与其方向有关，则令 $w^TS_ww=1$ ，于是我们要使 $-w^TS_bw$ 最小化，由拉格朗日乘子法得到： $S_bw=\lambda S_ww$ .

考虑到方向，则 $S_b$ 的方向恒为 $(u_0-u_1)$ ，将其代入上式，再化成： $w=S_w^{-1}(u_0-u_1)$
对于此式，我们需要对 $S_w$ 进行奇异值分解，即有： $S_w=U\sum{^{-1}}V^T$ ，其中U为酉矩阵， $\sum$ 是一个实对角矩阵，其对角线上的元素是 $S_w$ 的奇异值，于是求 $S_w^{-1}=V\sum{^{-1}}U^T$ .

以上是对于二分类任务，那么推广到多分类任务中，存在 $N$ 个类，第 $i$ 类示例数为 $m_i$ ,全局散度矩阵：

$S_t=S_w+S_b=\sum_{i=1}^m(x_i-u)(x_i-u)^T$

其中 $u$ 是所有示例的均值向量，则类内散度矩阵即每个类别的散度矩阵之和。
到这里就不进行赘述了，简单地讲一下，我们根据自定义的三个矩阵： $S_t=S_w+S_b$ ，根据这关系，我们知其二可知全部。如何实现？可采用优化目标（即求使类内散度矩阵和类间散度矩阵的迹的广义瑞利商最大的W值），接下来就是与二分类任务一样，通过广义特征值问题求解： $S_bw=\lambda S_ww$ .于是W的闭式解是 $S^{-1}_wS_b$ 的 $d^{’}<=N-1$ 个最大非零广义特征值所对应的特征向量组成的矩阵。关于什么是广义特征值，什么是特征向量：

求数λ，使方程Ax=λBx有非零解x，这里A为n阶实对称矩阵，B为n阶实对称正定矩阵，x为n维列向量，则称该问题为矩阵A相对于矩阵B的广义特征值问题，称满足上式要求的数λ为矩阵A相对于矩阵B的特征值，而与λ相对应的非零解x称为属于λ的特征向量。

LDA通过投影来减小样本点维数，投影过程使用类别信息，说明其也是一种监督降维的技术。

多分类问题

其实现实情况中，有些二分类学习任务可以直接推广到多分类任务，但我们大多数情况下是使用基本策略，用二分类学习器来解决对分类任务的。
拆解法：即将多分类任务拆分为多个二分类任务来求解。
拆分策略：
1、一对一（OvO）：简单来说就是把数据集样例两两配对，然后为每队训练一个分类器，最后测试时，将新样本同时提交给所有分类器，得到最终结果是被预测得最多的类别；
2、一对其余（OvR）：每次将一个类的样例作为正例，其他的作为反例进行训练多个分类器，测试时，若仅有一个分类器预测为正，则其对应的类别标记作为最终结果，否则选择置信度最大的类别标记作为结果；
3、多对多（MvM）：将若干类作为正，若干作为反，那么该如何选取，此时我们需要用到“纠错输出码”，对N个类进行M次划分，每次划分将部分作反，部分作正，训练出M个分类器；测试时，预测标记组成一个编码，将预测编码与每个类别的编码进行对比，选取其中距离最小的类别作为最终结果。

类别不平衡问题

分类任务中不同类别的训练样例数差别很大的问题。基本策略就是再缩放。
但此策略难以实现，无法达成假设。于是根据现有技术我们有三种方法：
1、欠采样：去反，使正反接近（不是随便去反，可将反例划分成多个集合，供不同学习器使用）
2、过采样：增正，使正反接近（不是对初始的正例进行重复采样，可通过对正例的插值来产生额外的正例）
3、阈值移动：使用原始数据集，但将“再缩放”嵌入其决策过程

最后编辑于：2020.02.05 12:36:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,825评论 4赞 377
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,887评论 2赞 308
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,425评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,801评论 0赞 224
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,252评论 3赞 299
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,089评论 1赞 226
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,216评论 2赞 322
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 31,005评论 0赞 215
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,747评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,883评论 2赞 255
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,354评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,694评论 3赞 265
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,406评论 3赞 246
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,222评论 0赞 9
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,996评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,242评论 2赞 287
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 36,017评论 2赞 281

第三章 线性模型