《大数据时代一》:大数据时代的思维变革

大数据时代封面

引言:一场生活、工作与思维的大变革

谷歌通过对海量的网上搜索记录进行分析成功先于卫生机构两周预测了甲型H1N1流感的传播趋势;埃奇奥尼通过对行业机票预订数据库的数据分析预测出机票价格的走势预测,因此消费者购买的平均每张机票可以节省50美元......

在大数据时代,你并不需要知其因果,只需知其相关。

随着爆发式的数据增长,几何式提高的计算机处理能力,从前我们认为无法从中提取有效价值的庞大数据库,如今却可以不受传统的约束为我们所用。在不久的将来,世界许多现在在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代,因为它为我们的生活创造了前所未有的可量化维度。

我们的数据采纳将不再依靠传统的随机抽样,而是将整个数据库当成样本;我们不再追求数据的绝对精确,而是通过海量数据分析出万物变化的趋势;我们的思维不再局限在传统的由数据证明事实,而是通过数据来影射出我们从前认为和信息根本搭不上边的事情。

但是随着这个可以预测未来的巫师日益成长,我们的个人意志是否因此受到挑战?这会对人类的自由和尊严产生什么影响?我们从前的生活方式是否会从此天翻地覆?

更多

一、更多

当数据处理技术已经发生了翻天覆地的变化时,我们需要的是所有的数据,“样本=总体”。

  在大数据时代,我们将有三个重大思维的转变:

  1、要分析与某事物相关的所有数据,而非少量的数据样本。

  2、我们要乐于接受多元繁杂,而不再追求精确。

  3、我们不需要知道“为什么”,我们只需要知道“是什么”。

    统计学家们证明:采样分析的精确性会随着采样随机性的增加而大幅提高,但与样本数量的增加,关系不大。当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少。这就如同经济学中的边际效应递减一样,效果会越来越低。在过去,随机采样取得了巨大的成功,成为现代社会、现代测量领域的中心骨,下至工厂抽样检查,大到人口普查都是如此。但这只是一条捷径,是在不可收集和分析全部数据的情况下的无奈选项,它本身存在许多固有的缺陷。它的成功大多依赖于采样的随机性,但是实现采样的随机性却非常困难。

更糟糕的是,随机采样不适合考察子类别的情况,因为一旦愈加细分下去,采样的偏见会越来越多,使得采样的立场各不相同,这会造成采样结果的错误率大大增加。就如同你在1000人的女性中调查对政策的看法,你无法使得一线城市的精英女性,与农村妇女的观点和思想会相同。在宏观领域起作用的方法在微观领域失去了作用。

采样的目的是用最少的数据得到最多的信息,但如果我们能够得到海量信息的时候,它就没有什么意义了。随着你采集的数据越多,你的预测结果会越来越准确。因此,我们需要足够的数据处理和存储能力,也需要最先进的分析技术,这在过去做不到,而现在却可以。

大数据中的“大”并不是绝对意义上的大,而是指不用随机分析法这样的捷径,而采用所有数据的方法。很长一段时间内,随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变成可能,但它不能够让我们从不同的角度,更细致地观察和研究数据的方方面面,而大数据却可以。在任何细微的层面,我们都可以用大数据去论证新的假设,它能让我们清楚分析微观层面的情况。

更杂

二、更杂

  执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

 历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就。伟大的物理学家开尔文男爵曾说过:“测量就是认知。”这已成为一条至理名言。同时,很多数学家以及后来的精算师会计师都发展了可以准确收集、记录和管理数据的方法。

然而,在不断涌现的新情况里,允许不精确的出现已经成为一个新的亮点,而非缺点。放松了容错的标准,人们掌握的数据将比以前更多,而这些数据将能用来做更多好的事情,甚至创造出更好的结果。

事实证明,大数据的简单算法比小数据的复杂算法更有效。谷歌翻译所利用的是一个大且繁杂的数据库,也就是全球的互联网,而非只利用两种语言间单纯的文本翻译。为了训练计算机,谷歌翻译系统会吸收所能找到的所有翻译,掌握用不同语言翻译的质量参差不齐的数十亿页的文档,来搭配组合出质量最好的结果。谷歌翻译正是由于利用了成千上万的数据,甚至接受了错误的数据,它才可以正确地推算出英语词汇搭配在一起的可能性,来达到最好的效果。而这并非归功于它算法的优劣,而是其数据的庞大。

传统的样本分析师们很难容忍错误数据的存在,他们的一生都在研究如何防止和避免错误的出现。大数据时代要求我们重新审视精确性的优劣,执着于精确性是信息缺乏时代和模拟时代的产物。如今,随着我们掌握的数据越来越全面,我们不再需要担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而非以高昂的代价消除所有的不确定性。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且可能长期存在。

几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源,但一旦数据规模扩大几个等级,这些预设一切都各就各位的系统就会奔溃。如果清楚的分类被更混乱却更灵活的机制所取代了,这些机制才能适应改变着世界。而事实上,现实是纷繁复杂的,天地间存在的事物也远远多于系统所归纳的。索引都是事先就设定好了的,这也就限制了人们的搜索。我们现在拥有各种各样、参差不齐的海量数据,很少有数据完全符合预先设定的数据分类。

在大数据和小数据分析之间,社会将两个折中的办法渗入了我们的处事方法中:①我们默认不能使用更多的数据,我们就不会去使用更多的数据。②在小数据时代,追求精确度是合理的,但是对于其他事情,想要快速获得一个大概的轮廓和发展脉络,就需要看起来并不精确却重要许多的庞大数据。其实这就像是印象派的画风一样,从近处看,每一笔感觉都杂乱无章,但是你退后一步的时候,就能看出画作的整体思路了。相比依赖小数据和精确性的时代,大数据更强调数据的完整性和混杂性能够帮助我们进一步接近事实的真相。

当我们的视野仅仅局限在我们能够分析我们所能得到的数据上时,我们对世界的理解就可能产生偏差和错误,就算我们可以分析到细节中的细节,也依然会错过事物的全貌。

更好

三、更好(不是因果关系,而是相关关系)

知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。

在大数据背景下,通过应用相关关系,我们可以比以前更容易、更便捷、更清楚地分析事物。

相关关系的核心是量化两个数据之间的数理关系。例如:在一个特定地区,越多的人通过搜索流感方面的词条,我们就可以知道该地区就有更多的人患了流感。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预知未来。如果A和B经常一起发生,只需要注意到B发生了,可以预测到A也即将发生。

在过去,专家们会经常利用假想分析法来指导自己选择适当的关联物,但这只适用于小数据时代。在大数据时代,我们拥有这么多的数据,这么好的机器计算能力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析。我们对大数据的分析将更准确、更快,而且不易受偏见的影响,因为数据足够庞大。

建立在相关关系分析法基础上的预测是大数据的核心,而且它的应用会越来越高。2011年,FICO提出“遵从医嘱评分”系统。它会分析一系列变量来确认这个人是否会按时吃药,例如,一个人在某地居住多久,这个人结婚没有,他多久换一个工作,他是否有私家车等这些诡异的相关变量。但这个评分会帮助医疗机构节省开支,因为它们会知道哪些人需要得到它们的用药提醒。

而中英人寿保险有限公司,则会将顾客的爱好、常浏览的网站、常看的节目、收入估计等看似无关的关联物,来找出更有可能患高血压、糖尿病和抑郁症的人。通过这个办法,保险公司可以在每个人身上节省125美元,而这个数据分析的成本仅需5美元。

这个系统有助于更多人得到保险,这对于社会和保险公司都有好处。

通过找出一个关联物并监控它,我们就能预测未来。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题。比如发动机在坏掉之前会出现嗡嗡声、引擎过热等故障,而这时候只需要通过传感器来实时监控其各项参数,再将之与平常情况作对比,便可在故障之前更换零件或者修复问题,从而避免了更大的经济损失。而预测性分析并不能解释故障可能发生的原因,它只会告诉你存着什么问题,而不会告诉你为什么引擎会过热。但是如果想要找出原因这必须要另想办法,也就是需要更大的成本。这时候知道“为什么”其实并不比知道“是什么”来得重要。

在大数据时代,新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了许多以前不曾注意到的联系。通过去探究“是什么”而非“为什么,相关关系帮助我们更好得了解了这个世界。

普林斯顿大学心理学专家,丹尼尔卡尼曼证明了人有两种思维:①毫不费力的快速思维,通过这种思维几秒钟就能得出结果。②比较费力的慢速思维,对于特定的问题,就是需要考虑到位。卡尼曼指出,出于惰性,快速思维模式在我们的生活中占了上风。但是,通常这种思维得出的因果关系都是并不存在的。父亲经常告诉孩子,天冷时候不戴帽子和手套就会感冒,然而事实上感冒与我们的穿戴没有太大关系(起码跟手套和帽子);我们去一家餐馆就餐后拉肚子,我们就会认为是餐馆的食物有问题。我们的快速思维模式直接将其归于任何我们能够第一时间想到的因果关系,而这通常都是错误的。

在小数据时代,我们会假想世界是怎么运作的,然后通过收集分析数据来验证假想。在大数据时代,我们会在大数据的指导下探索世界,而非受限于各种假想。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,333评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,812评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 110,016评论 0 246
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,293评论 0 214
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,650评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,788评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,003评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,741评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,462评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,681评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,168评论 1 262
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,528评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,169评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,119评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,902评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,846评论 2 283
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,719评论 2 274

推荐阅读更多精彩内容