梯度下降法详解(公式推导)

96
莫说水寒
0.7 2018.08.17 23:36* 字数 1855

通过一个案例来对这个方法有一个更加深刻的了解

假设你站在山坡的某个位置,当前位置记作 \theta_i ,你需要用最快的速度到达山底,而且每次只能以固定的步长 \alpha 走。问如何走才能满足上述条件?

用常识来解决这个问题,那就是沿着最陡峭的地方下降的最快,假设一个极限,山坡是直立的,那你走一小步,就坠落悬崖了,然后你根本不用迈出第二步。用更加学术的概念说就是梯度下降法。

蓝后,梯度下降法又是什么东西呢?且听老衲娓娓道来(猥琐脸)。

简言之,一个公式解决施主的所有疑惑
\theta_i = \theta_i - \alpha\frac{\partial}{ \partial\theta_i}J(\theta)
说明一下:上面的公式是一个位置更新公式,说白了,就是你每走一步,就记录一下你现在的位置,也就是等号左边的 \theta_i ,那这一步之前你在的位置就是等号右边的 \theta_i ,那你一步走多远呢?答案是 \alpha ,那你是要朝哪个方向走呢?估计已经猜到了,就是 J(\theta)关于\theta_i的偏导数

现在还有一点小疑惑。J(\theta) 是什么鬼?现在你可以把它假想为你在的位置的高度。

现在大概清楚了吧,既有前进的方向,又有前进的距离,很容易联想到学过的向量。这些向量首尾相连,这个轨迹就是这个方程的曲线图。画在图上大概是这个样子:

梯度下降法图解说明

且慢,施主不要走,你只学会了老衲的一成功力,还不足以出师

(呵呵呵)其实,这个公式虽然你能理解了,但是计算机无论如何也想不通,这样,就算电脑思考到死机也不会产生答案。。。。

现在我要把九阳真经传授于你:让计算机也能够像你一样去思考这个问题的答案。下面我们把这个公式给通俗化,把它展开成一个可以用计算机语言描述的柿子。

是否还记得上面的假想 J(\theta),现在告诉你,这个假想是错误的,因为它的真实含义不是高度,而是一个关于 \theta 方差的表达式。

它是这样定义的:J(\theta) = \min\limits_{\theta}\frac{1}{2}\sum\limits_{i=1}^{m}(h_\theta(x^{(i)}-y^{(i)})^2

我来描述一下这个柿子:

首先给定一个 m*n 的矩阵
\begin{matrix} x_{11} & ... & x_{1n} \\ . & & . \\ . & . & . \\ . & & . \\ x_{m1} & ... & x_{mn} \end{matrix}

释义:

\theta:表示需要求解的待定系数

x^{(i)}:表示第 i 行所有的 x

h_\theta(x^{(i)}):表示第 i 行所有的 x 乘以 \theta 后的取值,即 h_\theta(x^{(i)})= \theta_0 + \theta_{1n}x_{1n} + \theta_{2n}x_{2n} + ... + \theta_{in}x_{in} ,表示根据假设的模型计算的 y

y^{(i)}:表示第 i 行对应的真实的 y

J(\theta):表示令方差最小的函数(关于 \theta

=================================

答疑区

  1. 如何理解J(\theta)这个函数

可以简单的这样理解,我们要假设的模型最终要和现实世界的模型最好的吻合,这也是我们的初衷,如何来衡量吻合的效果呢?我们用方差来表示吻合的效果,这个其实也叫做损失函数,当我们把损失降低到最小的时候,吻合的效果是最好的。这个和我们一开始提出的下山路径规划是一个思路,所以就可以用同一种方法来求解了。其实这个方法就是用来求解最小值问题的。

  1. 那么为什么要走最快的路径呢?走其他路径不是也可以到达最低点吗?

答案是可以,通过其他的路径也可以到达最低点,在生活中确实也是这样的,但是根据我们从高中就建立起来的数学观念,貌似我们只学过两种求极值的方法,其一是根据曲线的特性,其二是求导。很明显,这个问题没有给定的曲线,所以我们只能用第二种方式来求解最值了。

当然如果你发现了一个新的求解极值的方式,也许你就是那个可以改变世界的人。期待你的进一步研究。

  1. 越接近最优解的时候发现图中的步长越小?

首先,你的发现是正确的。事实是这样的,这个向量等于 \alpha_i与偏导数 的乘积,虽然我们选择的 \alpha_i 始终是一个定值,但是越接近最值的时候,这个坡度就会越缓,从而导数的值就越小,也就是乘积变小了,这就是看到步长变小的缘故。

=================================

推导过程

现在大致了解了计算机的工作流程。在下面就是公式的推导了。

推导过程

数据量很大如何解决呢?

对于数量级很小的数据集我们可以用上面的方法来进行求解,但是通常情况给出的数据集并不小,我们考虑到计算机的性能,需要换一种解决方案。但是庆幸的是,用到的原理并没有发生变化。

对于数据集较大的,我们可以从原始数据集中每次训练时随机的选择一部分来进行对真实情况的模拟,虽然会产生一定的误差,但是这是在准确度和效率之间权衡之后选择的一个方式。俗话说,鱼与熊掌不可兼得。

下面介绍的解决方法是:随机梯度下降法,用伪代码来解释一下:

Repeat{
    for j=1 to m{
        theta_i = theta_i - alpha * J’(theta) # 这个就是上面写的更新公式
    }
}

这里随机选择的数据集的大小是 m 行。也就是 batch size。

在推导过程中需要用到的概念和公式:

在线性代数中,一个n×n矩阵A的主对角线(从左上方至右下方的对角线)上各个元素的总和被称为矩阵A的迹(或迹数),一般记作tr(A)。

  • 公式
  1. tr(AB) = tr(BA) #A、B、C均为n*n的矩阵
  2. tr(ABC) = tr (CAB) = tr(BCA)
  3. \nabla_Atr(AB)=B^T
  4. a\in\mathbb{R},则 tr(a)=a
  5. \nabla_Atr(ABA^TC)=CAB+C^TAB^T

待定系数现在已经不是一个未知数了,根据我们的数据,可以直接对其进行求解了。在使用的时候千万不要说你还不懂原理,老衲已经把毕生的功力传输于你,不要辜负了老夫啊。

这个就是梯度下降法的精髓,你掌握了没有呢?欢迎留言或者私信进行讨论。

有人说,任何人的差距是在10点之后才拉开的,那我已经到12点了(嘿嘿嘿)。

明天继续工作,希望我的分享能对您有些帮助,祝您好运。

作者原创,转载请注明出处:https://www.jianshu.com/p/93d9fea7f4c2

机器学习
Web note ad 1