线性回归-梯度下降法

梯度下降法求解最小二乘

梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路，下面从公式和实现的角度对两者进行分析
下面的h(x)是要拟合的函数，J(theta)是损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中n是训练集的样本数量，j是参数的个数。

1、批量梯度下降法

（1）构造损失函数

（2）求梯度
对J(theta)关于theta求偏导，得到损失函数关于每个theta对应的的梯度

（3）设置参数
1.学习率：
学习率不能设置过大，否则每次theta改变的太快，可能会跳过全局最优解。而陷入局部最优解，但是也不能设置的过小，否则要经过很多次迭代才能收敛到全局最优解
2.最大迭代次数：
即梯度下降法迭代的最大次数
3.误差阈值：
和迭代次数一样是用来控制迭代的结束条件的，当误差小于某个阈值或者迭代次数大于最大迭代次数时就结束迭代

（4）迭代更新theta
梯度是函数增长最快的方向，因此最小化损失函数，要沿着梯度的反方向进行寻优，来更新每个theta

从上面公式可以注意到，每迭代一步，都要用到训练集所有的数据，如果样本数量n很大，那么批量梯度下降的迭代速度会很慢！所以，这就引入了另外一种方法，随机梯度下降。

（5）python的实现

#coding=UTF-8

import numpy as np
import matplotlib.pyplot as plt
class linear_regression_gradient_descent:

    def __init__(self,x,y,eps,alpha,max_iter_times):
        '''
        initalize feature、dependent variable 、learning rate、iteration times
        :param x:
        :param y:
        :param alpha:
        :param max_iter_times:
        '''
        self.x=x
        self.y=y
        self.n = len(self.x)
        self.w=np.zeros((x.shape[1],1))
        self.alpha=alpha
        self.iteration=max_iter_times
        self.eps=eps
        self.cost_review=np.zeros((0,0))

    def error_function(self):
        '''
        compute error of training data in every iteration
        :return:a vector of error
        '''
        # step1 compute cost function
        n = len(self.x)
        y_pred = np.dot(self.x, self.w)
        error = y_pred - self.y
        return error

    def partial_devative(self):
        '''
        compute the partial derivatives of cost functions on theta in every turn
        :return:
        '''
        n = len(self.x)
        error = self.error_function()
        delta_w = np.dot(self.x.T, error) / n
        return delta_w

    def batch_gradient_descent(self):
        '''
        gradient descent to solve the parameter of linear regression
        :return:
        '''
        n = len(self.x)
        itera = 0
        error = self.error_function()
        cost = np.sum(error ** 2) / 2 * n
        while (itera < self.iteration or cost > self.eps):
            #step1 compute the partial derivatives of cost functions on theta
            delta_w = self.partial_devative()
            #step2 update theta
            self.w = self.w - self.alpha * delta_w
            #step3 compute cost function
            error = self.error_function()
            cost = np.sum(error ** 2) / 2 * n
           # print cost
            self.cost_review=np.append(self.cost_review, cost)
            itera += 1
        return self.w
if __name__=="__main__":
        x = np.array([[1, 2, 2, 0, 1], [3, 4, 2, 0, 1], [2, 5, 1, 0, 2], [2, 3, 5, 1, 3], [1, 4, 2, 3, 1], [3, 4, 2, 2, 1]])
        x_theta0 = np.ones(x.shape[0])
        # insert a full-1 col in the first col of X matrix to get the design matrix
        design_matrix = np.insert(x, 0, values=x_theta0, axis=1)
        y = np.array([1.2, 0.4, 0.6, 2.1, 0.9, 0.3]).reshape((len(design_matrix), 1))
        lr = linear_regression_gradient_descent(design_matrix,y,0.15,0.01,100)
        w=lr.batch_gradient_descent()
        print "parameter of linear regression:"+str(w)
        print "iteration times are:"+str(len(lr.cost_review))
    #show the curve of cost function
    fig=plt.figure(1)
    plt.plot(lr.cost_review,color='r')
    plt.ylim(ymin=np.min(lr.cost_review),ymax=np.max(lr.cost_review))
    plt.xlim(xmin=0,xmax=len(lr.cost_review)+1)
    plt.ylabel("cost function")
    plt.xlabel("id of iteration")
    plt.title("cost function of linear regression")
    plt.grid()
    plt.show()

cost_function.png

可以看出：虽然迭代次数设置了100次，但是因为误差一直没有达到设置的阈值0.15以内，因为一直在迭代，大约迭代了将近1000次才结束，在迭代的过程中，可以看到误差一直在不断减小，直至达到阈值要求

2、随机梯度下降法
（1）构造损失函数
上面批量梯度下降对应的是所有的训练样本，可以写成如下这种形式：

损失函数

此时的损失函数对应的是训练集中每个样本的损失函数，是样本粒度的

（2）求梯度
对每个样本的损失函数关于theta求偏导得到梯度

梯度

（3）设置参数
参照批量梯度下降法

（4）迭代更新theta

迭代更新公式

3.SGD与BGD的比较
相同点：都是全局寻优的：
BGD是最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小；
SGD是最小化每条样本的损失函数，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。但是大的整体的方向是向全局最优化的，最终的结果往往是在全局最优解附近。
总之，SGD和BGD都是在整个参数区间上进行搜索，学习率越大，每次参数的变动越大，那么可能容易陷入局部最小值，但是整体思想是全局寻优的
不同点：
(1)效率上：
随机梯度下降（SGD）是通过每个样本来迭代更新一次，如果样本量很大的情况（例如几十万），那么可能只用其中几万条或者几千条的样本，就已经将theta迭代到最优解了；
对比上面的批量梯度下降，迭代一次需要用到十几万训练样本，一次迭代不可能最优，如果迭代10次的话就需要遍历训练样本10次。因此SGD在计算的效率上要高于BGD
(2)局部最小值问题
因为SGD是通过每次对部分样本进行迭代，是对BGD的一个随机近似，那么当目标函数有多个局部极小值时，SGD比BGD反而更可能避免进入局部极小值中。
(3)学习率η的选择
对于步长 η的取值，一般BGD的η比SGD的大。因为GD的是使用准确的梯度，理直气壮地走，SGD使用的是近似的梯度，就得小心翼翼地走，怕一不小心误入歧途南辕北辙了。

4.梯度下降法和最小二乘法求解线性回归的比较
(1)梯度下降法是迭代算法，通过每一次迭代不断沿着函数减小最快的方向来改变代价函数的自变量theta，进而减小代价函数值，这一过程我们可以看出：梯度下降法是全局寻优的过程，只要theta设置合理，就不会陷入局部最小值，我们会逐渐收敛到全局最优值；
(2)最小二乘法是对代价函数直接求偏导令其为0，因此是局部寻优，实践表明在属性或者样本数目比较多时，梯度下降法效果更好，且在参数设置合理的情况下，会收敛到全局最优解

5、梯度下降用来求最优解，哪些问题可以求得全局最优？哪些问题可能局部最优解？
对于linear regression问题，如果最优化问题对theta的分布是****unimodal，即从图形上面看只有一个peak，所以梯度下降最终求得的是全局最优解。然而对于multimodal的问题，因为存在多个peak值，很有可能梯度下降的最终结果是局部最优

转载请注明出处：

最后编辑于：2017.12.10 02:25:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,290评论 4赞 363
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,399评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,021评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,034评论 0赞 207
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,412评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,651评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,902评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,605评论 0赞 199
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,339评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,586评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,076评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,400评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,060评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,083评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,851评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,685评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,595评论 2赞 270

线性回归-梯度下降法

推荐阅读更多精彩内容