×

大数据到底是个什么鬼?

96
一觉天使投资
2017.01.05 23:44* 字数 1380

根据人大副院长文继荣老师观点综合整理

文继荣:信息科学领域博士,微软研究院工作14年,主要研究搜索及大数据。2013年任人民大学副院长,大数据实验室主任。


“大数据”的概念已经火了好几年了,但大多数人都把它直接错误的理解为“数据大”而已,这样的理解是错误的。

传统思维中的理性主义总是希望从特殊到一般,我们总在找规律,这个是很重要的一个推动力,找到其中的规律就可以找到其中的多样性,但是为什么是这样?因为在我们人类的历史上,我们总是只能找到少量的样本,然后从少量的样本中找到规律。

然而,今天我们进入大数据时代,使得我们的生活被记录下来,很多时候就可以绕过模型。数据越多就越不需要模型。

举例来讲:如果已知一组数据,和一组结果,很显然我们可以给出一组函数来表达这两组数据之间的关系,这两组数据的相关性越差,那么函数越复杂,这就是我们常用的数据模型,但是,如果原始数据和结果这两组数据足够大,这里说的足够大是代表,只要有一个源数据都会对应一个目标数据,那么这个作为模型的函数便没有存在意义了,这就是大数据原理最基础的概念。也就是用足够量的数据匹配取代传统的数据之间的函数模型。

当拿到一个新的样本,我们直接在结果的数据里面查找比对即可,这就是计算机最擅长的方面:记忆和计算能力。大数据就是利用计算机的特性从事分析工作。

翻译工具,就是这样的典型模型,由于语言的复杂性,使得我们的翻译函数模型很难做好。Google通过互联网抓取所有针对某一句话的中文英文对比,来建立一张巨大的数据表,根据翻译的实际语境,给出最大多数人选择的结果,从而实现翻译,这是目前翻译软件大部分的原理。

再比如聊天机器人的对话模拟,也是根据互联网上海量的真人对话的“规律”,总结出最常用的回复,从而确定输出内容,同时也会保持前后的一致性,甚至可以根据聊天者的不同性别、爱好,给出不同的回答的方式。

再来说说美国大选预测,那也是从海量的互联网对话数据中,根据地区性别的不同,找出对上方的支持因素,整理成数据加以甄别,大数据所得到的结果和最终实际结果几乎完全相同。

还有一个例子就是最近非常火爆的AlphaGo,以前我们做下棋程序是靠计算,考模型算法,国际象棋可以在面临每一步时对各种可能性进行计算,但在围棋中是不能计算的。AlphaGo实际是收集了n多的盘棋局,而且可以自己和自己不断下,它收集了很多很多样本,因此,它现在下棋时就是依靠大数据选定赢的概率最大的一步。

大数据的定义:现代社会在掌握海量数据收集、存储和处理技术基础上所产生的一种以海量经验数据进行判断和预测的能力,代表了一种新经验主义。传统上讲,经验主义不是褒义词,但我们必须明确,我们之前所讲的经验主义是狭隘的、个人的、少量的经验,因此我们当时强调理性主义。但现在,伴随数字化,我们的经验不是过去的经验,而是新经验主义。

大数据和数据大是两个完全不同的概念。传统算法是从已知到未知,给出已知数据通过模型算出未知数据,而大数据的功能是从已知到已知,给出一组数据,他从已知的巨大数据库中找出答案。实际中,我们要把两种方式相结合应用。当情况是已知的样本时,可以直接用大数据;当情况不在样本中时,用模型解决。

未来的时代是基于大数据的创业时代,包括大数据在各个垂直领域的深度需求开发、安全性维护以及人工智能领域的底层应用,都是大数据的用武之地,对于天使投资人来讲,这也是时代所赋予的机遇。

线下沟通请加:one5ds 

觉得
Web note ad 1