机器学习：最小二乘、正则化和广义线性模型

1. 最小二乘法（Least squares）

最小二乘法是一种数学优化技术，它通过最小化误差的平方来寻找数据的最佳函数匹配。

先引入一些先验知识：

1. 高斯分布（Gaussian distribution）
-.-
若随机变量X服从一个位置参数为 μ（数学期望）、尺度参数为 σ（标准差）的概率分布，记为：X~(μ, σ²)。其概率密度函数为：

高斯分布曲线：

2. 拉普拉斯分布（Laplace distribution）
-.-
可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布。其中，μ 是位置参数，b > 0 是尺度参数。
·

拉普拉斯分布曲线：

3. 最大似然估计（Maximum likelihood estimation, ML）
-.-
假设有一组独立同分布的观测样本 x₁, x₂, …, x_n ,它们来自一个概率密度函数为 f₀ = f (·|θ₀) 的分布。其中，θ₀为该分布未知的真实参数。而我们的目标是找到最接近 θ₀ 的参数估计 θ' 。为了做到这一点，我们引入了最大似然估计。对于前面提到的n个独立同分布的观测样本，其联合密度函数为：
·
························ f (x₁, x₂, …, x_n | θ) = f (x₁|θ) f (x₂|θ) ··· f (x_n|θ)
·
考虑到观测样本是该函数的固定参数，而 θ 才是该函数的变量参数，这样我们就可以定义该函数为 似然函数：
.

对两边取自然对数后得到 对数似然，然后，我们可以通过最大化对数似然来求解 θ₀ 的最大似然估计 θ_ML 。
·
4. 最大后验估计（Maximum a posteriori estimation, MAP）
-.-
最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系，但是它使用了一个增广的优化目标，进一步考虑了被估计量的先验概率分布。所以最大后验概率估计可以看作是规则化的最大似然估计。
假设 θ 存在一个先验分布 g，利用贝叶斯定理，我们可以得到 θ 的后验分布为：

最大化该分布得到 MAP（当先验 g 是均匀分布时，MAP与MLE重合）：

对上式取自然对数得：

Note: MLE不考虑先验知识，很容易造成过拟合现象。MAP 比 MLE 多了一项先验分布 g(θ)，这一项正好起到了正则化的作用。如果假设 g(θ) 服从高斯分布，则相当于 L2 norm；如果假设 g(θ) 服从拉普拉斯分布，则相当于 L1 norm 。

现在，我们来理解（线性）最小二乘法。假设线性回归模型具有如下形式：

其中，x∈R^1xd，W∈R^dx1，误差 ϵ∈R。

若已知，X = (X₁, X₂, …, X_n)∈R^nxd，y∈R^nx1，如何求解参数 W？

策略： 假设 ϵ_i ~ N(0, σ²)，则 y_i ~ N(X_iW, σ²)，用最大似然估计可推得最小二乘（所以最小二乘是基于高斯分布的）：

令上式一阶导数等于0，得： X^TX W = X^Ty，若 X^TX 非奇异（即 X^TX 的行列式不为0），则 W 有唯一解： W = (X^TX)^-1X^Ty （normal equations）

a). 如果我们假设参数W 的先验分布为 W_i ~ N(0, τ²)，那么用最大后验估计可推得 Ridge 回归（L2 正则化）：

b). 如果我们假设参数W 的先验分布为 W_i ~ Laplace(0, τ²)，那么用最大后验估计可推得 LASSO 回归（L1 正则化）：

现在，我们可以给出正则化的概率角度解释：正则化项相当于参数 W 的先验分布（若该分布是 μ=0 的高斯分布，就是 L2 正则化；若该分布是 μ=0 的拉普拉斯分布，则是 L1 正则化），通过加入正则化项，限制参数空间，来控制模型复杂度，从而防止过拟合。

从下图中可以看出， L2/Gaussian在零值点附近的梯度小且变化缓慢，L1/Laplace 在零值点附近的梯度大且变化剧烈，因此，L1/Laplace相比于L2/Gaussian，在零和非零的差异捕捉上是更加敏感/容易的（也就是L1更容易取到零）；这一特点符合 "L1 比 L2 更容易获得稀疏解" 这一结论。

正则化的几何角度解释（参数/模型空间被限定在了下图的涂色区域内）：

左：L2 正则化，右：L1 正则化

从图中我们可以看到 L1 比 L2 更容易获得稀疏解， L2 正则化只有在参数 W 初始化值为0（但是，通常我们不会让权重初始化为0的）的情况下才能获得稀疏解。所以， L1 会趋向于选择少量的特征，而其他特征的权重（参数）都是0，而 L2 会选择更多的特征，这些特征的权重（参数）都会接近于0。 L1 在特征选择（有监督）的时候也非常有用，而 L2 就只是一种正则化手段而已。当作为正则化手段的时候，L2 通常是好于 L1 的，所以通常我们会选择 L2 。

2. Frequentist statistics vs. Bayesian statistics

统计推断的主张和思想，大体可以纳入到两个体系之内：频率学派（Frequentist statistics）和贝叶斯学派（Bayesian statistics）。

Frequentist statistics： 认为需要推断的参数 W 是固定（唯一）且未知的常数。而样本 X 是随机的，其着眼点在样本空间，相关的概率计算都是针对 X 的分布。所以他们的方法论一开始就是从 "哪个参数最有可能产生样本的真实分布" 这个角度出发，于是就有了最大似然（maximum likelihood）以及置信区间（confidence interval）。 ---> [ 求得唯一的最优参数 W ]

Bayesian statistics： 认为参数 W 是随机变量，而样本 X 是固定的，其着眼点在参数空间，重视参数 W 的分布。所以参数空间里的每个值都有可能是真实模型所使用的值，区别只是概率不同而已。于是才会引入先验分布 (prior distribution) 和后验分布（posterior distribution）这样的概念来设法找出参数空间上的每个值的概率。---> [ 求得的是参数 W 的分布 ]

Note： 最大后验估计（MAP）是对贝叶斯后验分布进行最大化估计，得到唯一的最优参数 W，这样做是因为对于大多数模型涉及到贝叶斯后验分布的操作大多很难处理，而 MAP 提供了一个可行的近似估计。

所以，在机器学习中，许多情况下贝叶斯概率推断更能解决观察者推断的问题，而绕开了关于事件本体的讨论（过多的关注训练样本容易产生过拟合，e.g. 最大似然估计）。

既然这里说到了正态分布，那我们就延伸一下，谈谈U分布，T分布，F分布和X²分布。

<1>. U分布

对于任意一个均值为 μ，标准差为 σ 的正态分布，都可以通过变换得到标准正态分布。变换方法：将变量 X 变换为 u，u = (X - μ) / σ，u 值的分布即为U分布（标准正态分布）。

<2>. T分布

从正态分布的同一总体中，随机抽取样本含量相等的若干组样本，分别计算它们的均值，这些样本均值的标准差（standard deviation）称为标准误（standard error）。标准误大，说明抽样误差大，用样本均值估计总体均值的可靠性小。

由于这个总体呈正态分布 N(μ, σ)，这些样本均值（假设有 n 组样本，每组样本有 m 个采样值）的频数分布任是以 μ 为中心的正态分布。这些均值的标准差，即标准误，可以通过如下公式计算得到：

实际工作中，标准误常用 S 估算得到（因为我们并不知道 σ 的大小），其计算公式如下（其中小 x 表示每组样本的均值）：

而 t 值就是样本均值与总体均值 μ 的差数除以 S ，即

而 t 值的频数分布就是统计学上的T分布。下图为T分布的概率密度函数（PDF），其中 v = n -1 表示自由度，黑色曲线就是标准正态分布。

PDF of T-distribution

<3>. 卡方分布（X²分布）

假设 Z₁, ..., Z_k 是 k 个相互独立且服从标准正态分布 N(0,1) 的随机变量，则这 k 个随机变量的平方和 Q 服从自由度为 k 的 X2分布，记作：Q ~ X²(k) 。其均值为 k，方差为 2k 。下图为 X² 分布的概率密度函数：

PDF of *X*<sup>*2*</sup>-distribution

<4>. F分布

假设 X，Y 两个独立的随机变量，X 服从自由度为 n 的 X²分布，Y 服从自由度为 m 的 X²分布，则这两个独立的 X²分布除以各自的自由度以后的比率服从F分布，即：

下图为F分布的概率密度函数：

PDF of F-distribution

3. 广义线性模型（Generalized Linear Model, GLM）

由于GLM是基于指数分布族（The exponential family），所以先引入一下指数分布族。指数分布族是指可以表示为指数形式的一类概率分布，指数分布的形式如下：

其中，η 为分布的自然参数（nature parameter）；T(y) 是充分统计量（sufficient statistic），通常 T(y) = y 。当参数 a、b、T 都固定的时候，就定义了一个以 η 为参数的函数族。

实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量 y 服从高斯分布，那么得到的是线性最小二乘回归（前面已经提到过），当随机变量 y 服从伯努利分布，则得到的是Logistic回归。

· 伯努利分布（Bernoulli distribution）

对于 Bernoulli(φ)，y ϵ {0,1}，有 p(y=1;φ) = φ，p(y=0;φ) = 1−φ，其期望为 φ 。将其推导成指数分布形式：

将其与指数族分布形式对比，可以看出：

从上述式子可以看到，η 的形式与logistic回归用到的sigmoid函数一致。

· 高斯分布（Gaussian distribution）

将高斯分布推导成指数分布形式：

将其与指数族分布形式对比，可以看出：

通过这两个例子，我们大致可以得出：η 以不同的映射函数与其它概率分布函数中的参数发生联系，从而得到不同的模型。广义线性模型正是将指数分布族中的所有成员（每个成员正好有一个这样的联系）都作为线性模型的扩展，通过各种非线性的连接函数将线性函数映射到其他空间，从而扩大了线性模型可解决的问题。

下面给出GLM的形式化定义，GLM 有三个假设：

(1) 给定样本 x 与参数 θ，样本输出 y 服从指数分布族中的某个分布，即P(y|x;θ) ~ ····Exponential Family(η)；
(2) 给定一个 x，预测T(y)的期望，即目标函数为 h_θ(x) = E[T(y)|x]；
(3) η 和 x 之间是线性的，即 η = θ^Tx 。

依据这三个假设，我们可以推导出logistic回归模型与最小二乘回归模型。

伯努利分布 → logistic回归模型（用于二分类问题）：

高斯分布 → 最小二乘回归模型（用于线性回归问题）：

[ 广义线性模型通过假设一个概率分布，得到不同的模型，而梯度下降和牛顿方法等优化方法都是为了求解模型中的线性部分 (θ^Tx) 的参数 θ 的。]

最后编辑于：2020.07.16 09:58:53

禁止转载，如需转载请通过简信或评论联系作者。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259