逻辑回归算法

我又来发公式了。用行动推动简书支持 MathJax。万一你真想看这篇文章,请移步 逻辑回归算法获得完整地阅读体验。

分类问题及其表现形式

为什么需要逻辑回归算法

比如要对一个图片进行分类,判断图片里是否包含汽车。包含汽车的预测值为 1 。不包含汽车的预测值为 0 。这种分类问题的值是离散的,如果用 linear regresstion 来作为分类问题的预测函数是不合理的。因为预测出来的数值可能远小于 0 或远大于 1。我们需要找出一个预测函数模型,使其值的输出在 [0, 1] 之间。然后我们选择一个基准值,比如 0.5 ,如果预测值算出来大于 0.5 就认为其预测值为 1,反之则其预测值为 0.

逻辑回归算法的预测函数

我们选择 $g(z) = \frac{1}{1 + e^{-z}}$ 来作为我们的预测函数。这个函数称为 Sigmoid Function 。它的图形如下:

Sigmoid Function
Sigmoid Function

从图中可以看出来,当 $z > 0$ 时,$g(z) > 0.5$ 。当 z 越来越大时,$g(z)$ 接无限接近于 1。当 $z < 0$ 时,$g(z) < 0.5$ 。当 z 越来越小时,$g(z)$ 接无限接近于 0。这正是我们想要的针对二元分类算法的预测函数。

结合我们的线性回归函数的预测函数 $h_\theta(x) = \theta^T x$,则我们的逻辑回归模型的预测函数如下:

$$
h_\theta(x) = g(\theta^T x) = \frac{1}{1 + e{-\thetaT x}}
$$

解读逻辑回归预测函数的输出值

$h_\theta(x)$ 表示针对输入值 $x$ 以及参数 $\theta$ 的前提条件下,$y=1$ 的概率。用概率论的公式可以写成:

$$
h_\theta(x) = P(y=1 \vert x; \theta)
$$

上面的概率公式可以读成:在输入 $x$ 及参数 $\theta$ 条件下 $y=1$ 的概率。由概率论的知识可以推导出,

$$
P(y=1 \vert x; \theta) + P(y=0 \vert x; \theta) = 1
$$

判定边界 Decision Boundary

从逻辑回归公式说起

逻辑回归预测函数由下面两个公式给出的:

$$
h_\theta(x) = g(\theta^T x)
$$

$$
g(z) = \frac{1}{1 + e^{-z}}
$$

假定 $y=1$ 的判定条件是 $h_\theta(x) \geq 0.5$,$y=0$ 的判定条件是 $h_\theta(x) < 0.5$,则我们可以推导出 $y=1$ 的判定条件就是 $\theta^T x \geq 0$,$y=0$ 的判定条件就是 $\theta^T x < 0$。所以,$\theta^T x = 0$ 即是我们的判定边界。

判定边界

假定我们有两个变量 $x_1, x_2$,其逻辑回归预测函数是 $h_\theta(x) = g(\theta_0 + \theta_1 x_1 + \theta_2 x_2)$。假设我们给定参数

$$
\theta = \begin{bmatrix} -3 \\ 1 \\ 1 \end{bmatrix}
$$

那么我们可以得到判定边界 $-3 + x_1 + x_2 = 0$,即 $x_1 + x_2 = 3$,如果以 $x_1$ 为横坐标,$x_2$ 为纵坐标,这个函数画出来就是一个通过 (0, 3) 和 (3, 0) 两个点的斜线。这条线就是我们的判定边界。

linear decision boundary
linear decision boundary

直线左下角为 $y=0$ ,直线右上解为 $y=1$ 。横坐标为 $x_1$,纵坐标为 $x_2$ 。

非线性判定边界

如果预测函数是多项式 $h_\theta(x) = g(\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_1^2 + \theta_4 x_2^2)$,且给定

$$
\theta = \begin{bmatrix} -1 \\ 0 \\ 0 \\ 1 \\ 1 \end{bmatrix}
$$

则可以得到判定边界函数

$$
x_1^2 + x_2^2 = 1
$$

还是以 $x_1$ 为横坐标,$x_2$ 为纵坐标,则这是一个半径为 1 的圆。圆内部是 $y=0$ ,圆外部是 $y=1$。

circle decision boundary
circle decision boundary

这是二阶多项式的情况,更一般的多阶多项式可以表达出更复杂的判定边界。

逻辑回归的成本函数

线性回归的成本函数是 $J(\theta) = \frac{1}{m} \sum_{i=1}^m \frac{1}{2} \left (h_\theta(x^{(i)}) - y^{(i)} \right)^2 $,如果我们按照线性回归的成本函数来计算逻辑回归的成本函数,那么我们最终会很可能会得到一个非凸函数 (non-convex function),这样我们就无法通过梯度下降算法算出成本函数的最低值。

为了让成本函数是个凸函数 (convex function),以便容易求出成本函数的最小值,我们定义逻辑回归的成本函数如下:

$$
Cost(h_\theta(x), y) = \begin{cases}
-log(h_\theta(x)), & \text{if $y$ = 1} \\
-log(1 - h_\theta(x)), & \text{if $y$ = 0} \\
\end{cases}
$$

成本函数的解读
如果 $y = 1, h_\theta(x) = 1$,那么成本为 $Cost = 0$;如果 $y = 1, h_\theta(x) \rightarrow 0$,那么成本将是无穷大 $Cost \rightarrow \infty$。
如果 $y = 0, h_\theta(x) = 0$,那么成本为 $Cost = 0$;如果 $y = 0, h_\theta(x) \rightarrow 1$,那么成本将是无穷大 $Cost \rightarrow \infty$。

逻辑回归成本函数定义

由于 $y \in [0, 1]$ 的离散值,可以把两个成本函数合并起来:

$$
J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m log(h_\theta(x^{(i)})) + (1 - y^{(i)}) log(1 - h_\theta(x^{(i)})) \right]
$$

把 $y = 0, y = 1$ 两种情况代入上式,很容易可以验证成本函数合并的等价性。使用梯度下降算法进行参数迭代的公式如下:

$$
\begin{align}
\theta_j & = \theta_j - \alpha \frac\partial{\partial{\theta_j}}J(\theta) \\
& = \theta_j - \alpha \frac{1}{m} \sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)}
\end{align}
$$

这个公式的形式和线性回归算法的参数迭代公式是一样的。当然,由于这里 $h_\theta(x) = \frac{1}{1 + e{-\thetaT x}}$,而线性回归算法里 $h_\theta(x) = \theta^T x$。所以,两者的形式一样,但数值计算完全不同。

算法优化

梯度下降算法的效率是比较低,优化的梯度下降算法有 Conjugate Gradient, BFGS, L-BFGS 等。这些算法比较复杂,实现这些算法是数值计算专家的工作,一般工程人员只需要大概知道这些算法是怎么优化的以及怎么使用这些算法即可。

octave 里提供了 fminunc 函数,可以查阅文档来学习函数用法,从而学会使用优化过的梯度下降算法,以提高计算效率。

多元分类算法

除了二元分类算法外,还有多元分类问题,比如需要给邮件打标签,则可能有多个标签需要考虑。这个时候需要使用 one-vs-all (one-vs-rest) 的方法。即把要分类的一种类别和其他所有类别区分开来的,这样就把多元分类问题转化为二元分类问题,这样就可以使用上文总结的所有二元分类问题的算法。

针对 $y = i$,求解针对 i 的预测函数 $h_\theta^{(i)}(x)$。如果有 n 个类别,则需要求解 n 个预测函数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容