大规模机器学习（一）

大型数据集的学习

It's not who has the best algorithm that wins. It's who has the most data.

在机器学习中，决定因素往往不是算法而是数据集的大小。正如我们之前所学习的欠拟合问题，我们增加数据往往能帮助我们获得更为满意的结果。

但大型数据集的学习都有些独特的问题，尤其是计算问题。

现假设数据集m=100000000，我们想利用该数据集训练一个线性回归或者逻辑回归模型，并使用梯度下降算法最优化模型的代价函数。

为了计算每一步的下降梯度，我们需要对这一亿条数据求和，这计算量是非常大的。因此，我们在事先应该分析我们需不需要这么大的数据集。在本例中，也许我们只用1000个数据也能得到较好的结果。在此期间，我们可以绘制学习曲线来帮助我们判断大数据集有没有必要。

随机梯度下降算法

在之前介绍的线性回归模型中，我们使用梯度下降算法最优化代价函数。在这小节中，我们依旧使用线性回归模型来介绍随机梯度下降算法。

现在回想一下，我们之前所使用的梯度下降算法是如何运算的。

如上图所示，我们在每次更新参数θ时，算法都要对整个训练集遍历求和。我们将这种梯度下降算法称为批量梯度下降算法（Batch Gradient Descent Algorithm）。若训练集m的值非常大时，此时的计算代价就比较高了。

因此，我们使用随机梯度下降算法（Stochastic Gradient Descent Algorithm）来解决该问题。在随机梯度下降算法中，先将训练集进行随机化处理，然后每完成一次计算就更新参数θ。

但随机梯度下降算法每次迭代并不意味着“正确”。因此，随机梯度下降算法可能最终都无法计算出全局最优值，其值实际上为接近全局最优值。

迷你批量梯度下降算法

迷你批量梯度下降算法（Mini-Batch Gradient Descent Algorithm）是介于批量下降算法和随机梯度下降算法之间的梯度下降算法，其每计算b（b为常数）个训练实例，便更新一次参数θ。

其中，常数b的取值范围为2~100。在这样的范围内，我们可以对训练集进行向量化处理。

当对训练集向量化时，迷你梯度下降算法好于随机梯度下降算法。因为此时的迷你梯度下降算法能够实现并行运算，其运算速率相比随机梯度下降算法是要更快的。

随机梯度下降收敛

在之前的学习中，我们通过绘制学习曲线来判断梯度下降算法是否收敛。因此，判断随机梯度下降算法是否收敛，我们仍然采用绘制学习曲线的方法。

其学习曲线如下：

其中，图中蓝色曲线均为最后1000个训练实例在随机梯度下降算法中的学习曲线。第一幅图，红色曲线为学习率α较小时，随机梯度下降算法的学习曲线；第二幅和第三幅图，红色曲线均为最后5000个训练实例在随机梯度下降算法中的学习曲线；第三幅图，紫红色曲线为最后5000个训练实例在随机梯度下降算法中的学习曲线，但其为异常曲线，我们需要调整学习率α或特征变量x；第四幅图，表明我们需要减小学习率α的值。

由于随机梯度下降算法所计算出的最优值实际上为局部最优值，因此为了进一步提升算法，我们也可以令学习率α的值随着迭代次数的增加而减小。如上图所示，例如令：

最后编辑于：2017.12.11 06:24:44

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,117评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,963评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,897评论 0赞 240
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,805评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,208评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,535评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,797评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,493评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,215评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,477评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,988评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,325评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,971评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,807评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,544评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,455评论 2赞 266

大规模机器学习（一）

大型数据集的学习

随机梯度下降算法

迷你批量梯度下降算法

随机梯度下降收敛

推荐阅读更多精彩内容