线性回归与逻辑回归的联系

线性回归 (linear regression)

给定数据集\{(x_i, y_i)\}_{i=1}^m,其中x_i \in \mathbb{R}^ny_i \in \mathbb{R}。线性回归试图学得一个线性模型f(x_i) = w^Tx_i + b来尽可能好地拟合数据y_i

为了求解模型参数w, b,我们通常采用均方误差(mean squared error, MSE)损失函数:
L = \sum_{i=1}^m (y_i - w^Tx_i - b)^2
均方误差有非常好的几何意义,对应了常用的欧氏距离。
采用最小化均方误差来进行模型求解的方法就是最小二乘法,我们高中就接触过的方法,可求得w, b的解析解。

逻辑回归 (logistic regression)

在回归任务中,y_i\in \mathbb{R},是连续变量。而在分类任务中,y_i是离散变量,比如二分类 y_i \in \{0, 1\},因此我们需要找个单调可微的函数将线性回归的预测实值和分类任务的离散标签联系起来。

针对二分类任务,y_i \in \{0, 1\},线性回归模型的预测实值z_i = w^T x_i + b,为了将实值z_i映射到\{0, 1\},我们考虑利用
Sigmoid函数\sigma(x) = \frac{1}{1 + e^{-x}},即:

p_i =\sigma(z_i) = \sigma(w^Tx_i + b)

z_i>0时,p_i>0.5,预测标签为1
z_i<0时,p_i<0.5,预测标签为0

Sigmoid

Sigmoid函数值域为(0, 1),形似S曲线,可以方便将实值z_i转化为一个在0或1附近的值。

进一步地,我们将Sigmoid函数的输出p_i视为将样本预测为正类1的概率,即:
P(Y=1 | x_i) = p_i = \sigma(z_i) = \sigma(w^Tx_i + b)
P(Y=0 | x_i) = 1 - p_i

然后我们采用极大似然法来估计模型参数w, b
似然函数为
\prod_{i=1}^{m} p_i^{y_i} (1-p_i)^{1-y_i}
对数似然函数为
\sum_{i=1}^m [y_i\log{p_i} + (1-y_i)\log{(1- p_i)}]
等价于最小化loss为
L = \frac{1}{m}\sum_{i=1}^m - [y_i\log{p_i} + (1-y_i)\log{(1- p_i)}]
这就是交叉熵损失函数(Cross Entropy Loss Function)

更进一步地,我们将二分类任务的交叉熵损失函数扩展到多分类,假设总共分为C类,x_i \in \mathbb{R}^ny_i \in \mathbb{R}^C。则:

L = \frac{1}{m}\sum_{i=1}^m - [\sum_{j=1}^Cy_{ij}\log(p_{ij})]
y_{ij}表示第i个样本真实标签是否为j,当第i个样本属于第j类时,y_{ij}=1,否则y_{ij}=0p_{ij}表示第i个样本被预测为第j类的概率。

为了分析方便,我们令L_i = - [\sum_{j=1}^Cy_{ij}\log(p_{ij})],则当第i个样本的真实标签为c时,该项可简写为:

L_i = - [\log(p_{ic})]
L = \frac{1}{m}\sum_{i=1}^m L_i

两者关联

  1. 线性回归采用均方误差损失等价于极大似然。
    在逻辑回归中,求解模型参数我们采用的是极大似然估计法;而在线性回归中,求解模型参数我们采用了最小二乘法。
    但其实本质上,线性回归求解参数采用最小化均方误差等价于极大似然估计,证明如下:
    首先,我们将模型参数b也融入向量w中,可得线性回归采用均方误差损失函数为:
    L = \sum_{i=1}^m (y_i - w^Tx_i)^2
    我们假设预测值和真实值之间的误差\epsilon_i = y_i - w^T x_i服从标准正态分布,即\epsilon \sim N(0, 1),则有:
    P(Y=y_i | x_i) = P(\epsilon_i) = \frac{1}{\sqrt{2\pi}}e^{-\frac{\epsilon^2}{2}} = \frac{1}{\sqrt{2\pi}}e^{-\frac{(y_i-w^Tx_i)^2}{2}}
    所以,
    \log P(Y=y_i | x_i) = -\frac{(y_i-w^Tx_i)^2}{2} + const
    忽略常量const,
    L = -2 \sum_{i=1}^m \log P(Y=y_i | x_i)
    可以看出,最小化Loss等价于极大化似然。
  1. 逻辑回归也称对数几率回归几率(odds)的定义为将样本预测为正例的概率与样本预测为负例的概率的比值,因此对数几率定义为:
    \log \frac{p_i}{1 - p_i} = \log (e^{w^T x_i + b}) = w^T x_i + b
    可见在逻辑回归中,样本预测为正例的对数几率是输入x的线性函数,因此也称对数几率回归。

推荐阅读更多精彩内容