机器学习方法的本质是什么？

机器学习方法本质上是人类认知方式的新世界，是人类的未来。

工业革命解放了人类的体力，以机器学习技术逐步解锁的人工智能革命将解放人类的脑力。

这不是技术层面上的进步，而是从根本上改变人类认知世界的方式。

长久以来，人类对事物的认知经由三个步骤：原始数据——专业知识/经验常识——认知。

这里的原始数据指得是可被人类感知到的一切客观存在之总体，既包括理工范畴内的计量数据，亦包括文史范畴内的事件与现象。

面对同样的原始数据（股市数据，仪表指数，社会现象等），拥有不同知识的人将得出不同的认知；同样，拥有相同知识的人，面对没有数据、有少量数据、有大量数据以及有充分数据等不同情况时，也将得出不同的认知（信息均等博弈，信息不对称博弈）。

那么究竟是知识重要还是数据重要？

在人类历史很长一段时间内，无疑是知识的拥有者占据了上风。

而机器学习方法的出现，则将这个趋势彻底扭转。

或许，“知识”未来将一文不值，而“数据”，才是价值连城。

机器学习的本质，就在于建立了（原始数据——认知）之间的直接映射，跳出了“知识”的束缚。

从此，人类的认知方式改天换地。

因为，从此我们或许再也不需要那冗桎的“知识”。

一，什么是“知识”：

事实上，“知识”也产生于“数据”。

因为人类全部“知识”的产生过程如下：

1）最初的人类不具备任何“知识”。

2）人类所取得的任何“新的知识”，都是灵感来源于“数据”、推导基于“已有知识”、验证于“数据”。

所以，所谓“知识”，只是对数据之间客观联系全部总体的系统化、逻辑化、因果化了的描述方式，正如“系统”、“逻辑”、“因果”这三个词背后所代表的哲学意义一样，都是客观上并不存在，只是被我们人类人为地创造出来用于认知的工具而已。

用以凭借人脑这一低效的处理器与存储器去理解这无限复杂的世界而不得不妥协的产物。

更直接地说，“知识”其实并不是客观存在，只不过因为人脑无法存储处理这世间所有的（“数据”——“认知”）关系，而妥协生成的一种中介机制、一种简化机制，以便于人类去理解相关“数据——认知”关系对的模块化的桥梁。例如“标签化”，正因为人脑无法存储也无法分析所有“河南人”“广东人”的数据，所以我们生成了类如“河南小偷多”“广东人吃福建人”这样的标签用于简化我们对河南人与广东人的认知。抛开这两个玩笑性质的“标签”不谈，事实上现实生活中我们对特定职业、特定阶层、特定民族所贴上的一些“标签”，本质上往往是基于最大似然估计的，这样当我们在没有更多后验信息的条件下与一个完全陌生的人打交道时，我们通过这些标签能够高效地以最大概率的获取对此人的最近似的认知。

其实，人类的一切“知识”都只不过是各种形式的“标签”而已，从而通过对某一特定族类数据的特殊化处理，实现高效理解能力的一种简化方式。

当然，这种简化背后所损失掉的，是精确性。因为对事物的本质最好的解释依然是事物本身，或者说，是人类可以感知到的有关该事物的全部数据本身。就好比，要解释什么是苹果，最好的方法就是递过去一个苹果说：“诺，这是个苹果。”。而其它的类似于“苹果就是圆圆的，一般为红色的，酸甜多汁的一种水果”这样的“知识”无论多么精确，都只是人类面对自己有限的认知能力条件下的一种只好挑选出一些“简化特征”的妥协而已。

二，什么是机器学习

人脑处理能力不足因而需要“知识”来简化运算，但电脑不需要，相比于人脑，电脑的运算能力几乎是无限的。

所以，电脑足以也必须担负起抛开“知识”的束缚，直接建立（“数据”——“认知”）关系库，从而以更加深邃、更加贴近世界本来面貌的视角去认知世界的重任。

这便是机器学习的本质。

说完了本质，那么，机器学习具体究竟是怎么样的一种方法呢？

这是一种全新的思维方式。

机器学习的标准范式可以表达如下：

对于一个Task及其Performance的度量方法，给出特定的Algorithm，能够通过利用Experience Data不断提高在该Task上的Performance的方法，就称为机器学习。

其实这个定义就是“学习”的全部含义，这个事情按照机器的思路来做，就是机器学习。

举现在最火的Alpha:GO（也就是计算机围棋学）的例子，不妨设此处的“Task”就是一步棋路，“Performance”就是最后的胜率，“Experience Data”就是以往的棋谱。然后设计出一个Algorithm，使得构建出的“这步棋我该走到哪里呢——模型”能通过利用过往数据而取得“Performance：胜率”的提高。

为了实现每次利用Experience data对Performance的提升，当前最主流的方法就是“误差反向传播法”。这种方法的核心思想就是：让机器自由去试错，然后根据尝试的结果与样本的真实结果之间的误差反向调整试错策略。误差较小的尝试要奖励，误差较大的尝试给予惩罚，然后将这个尝试过程一直循环进行下去，直到多学习到的结果在所有样本上的表现达到我们所定义的最优。通俗来说，这与训练一条狗去服从我们的指令或是训练自己完成题集上的全部习题等过程并没有什么区别。

有了“误差反向传播”算法，Alpha：GO们就可以通过每次利用“Experience data：棋谱”使得自己下棋的胜率提高一点点。这便是一个机器学习方法的实例。

因为这个“下棋机器”从历史的数据中确实学到了点什么。

讲到这里，可能有人会感觉，似乎机器学习很弱鸡啊，随便一个棋手看看以前的棋谱也都可以学到点什么啊。

幸运的是或者（对于柯洁们来说）不幸的是，对于机器而言，“学到点什么”就等价于“学到了全部”。

因为它可以“一直学”。

只要有了：

1）合理的算法保证每次对Experience Data的学习都能使Performance提高一点点，

2）足够的运算能力。

这两点设计，机器的能力必将达到极值，在可获取的Experience Data约束范围内的极值。因为机器可以一夜之间学遍所有棋谱，包括古谱、网络棋谱、以及自己和自己下的棋谱。而且还能神tm能保证每次进步一点点。

而人类棋手穷极一生可能做到这点吗？

所以人类棋手进步的通道更多的转向了听取前辈的教诲，钻研棋理，总结技巧，或者说，转向了“知识”，人类各行各业的佼佼者归根结底都是知识的“富有者”。

其实，在人类的学习中，也有类似于机器学习的学习过程，那便是基于千百次尝试中通过“惩恶扬善”所积累出的个人经验或直觉本能。只可惜，对于人类来说，这部分“学习结果”是无法共享的，一个老司机的开车能力是一个新手通过怎样的言传身教都无法企及的。

而对机器而言，第一不依赖于知识，只要有足够多的病例数据，在完全没有任何医学基础的条件下也可以通过合理的算法对疾病进行诊断，且准群度媲美甚至远超一众经验丰富的“老中医”；第二，学习结果在机器间可以共享，一台机器（或者说一套算法）达到了某一高度，所有的机器便都可以达到这样的高度。（没钱买不起设备？没钱买不起数据？没钱买不起程序？）。

三，人类学习与机器学习

正因为计算与处理能力的差别，导致了人类与机器在学习方法上的差异。

机器计算能力无穷无尽，所以机器学习很粗暴，有多少，学多少。其最终能达到的高度只取决于数据量。

当数据量充足时，机器学习方法所能得到的结果，可无限逼近于事物的本质面貌。

不需要理论，不需要知识。

或者说，机器通过对海量数据进行学习所得到的结果，就是该问题最终极最权威的“理论”与“知识”。只是，“不足为外人道哉”，这是一种隐式的（知其然不知其所以然）“知识”。

就好比，Alpha：GO并不懂棋理，也说不出什么理论基础，它只知道怎么下能赢，至于为什么要这么下，它自己无法解释，谁也无法解释。

但这并不妨碍我们认可Alpha：GO已掌握了围棋的真谛。

而人类计算能力有限，不可能做到对全部数据的充分学习。因而人类转向了一种“分布式”的处理方式，将每个人做为一个独立的处理单元各自做出一点微不足道的小贡献，同时建立起“知识”这一显式的（可阅读，可解释的）抽象表示事物关系的体系作为各个分布单元人之间传输信息的接口。

因此，人类尽管个体能力有限，但人类这个群体却是飞速发展；同时，作为无数个体“知识”的汇总而构成的“科学”，帮助着我们每个人类依靠着自身非常低效的处理能力，也能对客观事物给出相当靠谱的解释。

这真是“我为人人，人人为我”的境界啊。

从这个意义上，虽然人类的自身能力有限，但实际上人类却发明了一种更为先进的认知系统。

用于突破造物主施加于人类之上的桎梏。

体能上的桎梏我们已经通过工业革命突破，智力上的桎梏则要交给人工智能来突破。

四，最后

不要小看机器学习，这必将成为人类世界的一种新的思维方式，渗透入各行各业。

更不要小看人类，因为是人类造出了机器，这是人类“善假于物”特性在当代最完美的演绎。

人类，永远能在自己有限的能力范围内，做出惊天动地的伟业！

最后编辑于：2017.12.08 06:17:40

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,924评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,902评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,716评论 0赞 239
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,783评论 0赞 203
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,166评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,510评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,784评论 2赞 311
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,476评论 0赞 196
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,196评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,459评论 2赞 243
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,978评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,321评论 2赞 252
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,964评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,046评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,803评论 0赞 193
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,530评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,420评论 2赞 265

机器学习方法的本质是什么？

一，什么是“知识”：

二，什么是机器学习

三，人类学习与机器学习

四，最后

推荐阅读更多精彩内容