什么是数据驱动?(转译)

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

数据驱动

定义
一个数据驱动的组织会以一种及时的方式获取、处理和使用数据
来创造效益,不断迭代并开发新产品,以及在数据中探索(navigate)。

有很多方式可以评估一个组织是否为数据驱动的,如:

  1. 产生的数据量
  2. 使用数据的程度
  3. 内化数据的过程

作者认为有效地(effectively)使用数据为关键。

商务公司拥有使用数据来改善效益的历史。
任何好的销售人员天性知道如何去向消费者推荐采购。

那些浏览过这些商品的客户同样浏览了另外一些东东……Amazon将该技术移至线上。
这种简单的协同过滤的实现是Amazon诸多特性的一种。
这是一个对于传统搜索之外的机缘巧合的强大的机制。

数据产品是社交网站的心脏。它们的数据必然是庞大的用户数据集,形成的一张图。也许对于社交网络来说最重要的产品是某种帮助用户链接彼此的工具。任何新的用户需要找到新的伙伴,熟人或者联系方式。让用户去搜索他们的朋友可不是一个好的用户体验。如同LinkedIn,工程师发明了People You May Know(PYMK)来解决这个问题。在理论上的确很容易完成这项工作,根据已经存在的关系图,我们可以准确地发现新用户的关系网络。这样的推荐朋友比自己去选择更为高效。尽管PYMK现在很新颖,它却已经成为了每个社交网站的必备部分。Facebook不仅支撑了自身版本的PYMK,他们还监控了用户获得朋友的时间。使用精密的跟踪和分析技术,他们已经标识了让一个用户长期参与的的时间和连接数。

如果你缓慢地链接一些朋友或者添加朋友,你将不会是一个长期依赖社交网络的用户。
通过学习达到信任的活动的层级,他们已经将网站设计成为能够有效降低新人加一定数量朋友为其好友的时间。

类似地,Netflix在线电影事业完成了同样的任务。当你注册时,他们强烈推荐你添加你打算观看的电影。他们的数据组已经发现一旦你增加超过某个数量的电影,你成为一个长期用户的概率将大大增加。借助这个数据,Netflix可以构造、测试和监测产品流来最大化新人转变为长期顾客的数量。他们已经简化了高度优化的注册/试用服务,有效利用了这样的信息来快速和高效地黏合客户。

Netflix、LinkedIn和Facebook并不是仅有的使用用户数据来鼓励客户的长期参与。如Zynga,它不仅仅关注游戏,还会常态化地监测用户身份和他们的行为,生成了一个不可思议的大数据。通过分析用户在一段时间内在一个游戏中的交互行为,他们已经识别出那些直接导致成功游戏的特征。基于用户和其他用户的交互行为的数目、前n天内用户建造的房子数目、在前m个小时内他们杀死了怪物的个数等等,他们便可以知道用户将成为长期会员的概率的变化。他们找到了如何达成参与的挑战的关键点,并已经设计出产品来鼓励用户达到这些目标。通过持续测试和监测,他们优化了对这些关键点的理解。

Google和Amazon在使用A/B测试来优化网页的展示方面是先行者。在互联网发展历史上,设计者门借助直觉和本能来完成工作。这没有任何错误,但是如果你对一个页面作出修改,你需要确保这个改动是有效的。你卖出更多的产品了么?用户需要多久才能发现想要的东西?多少用户放弃了并转向了其他网站?这些问题只能借助实验、收集和分析数据来完成,这些是数据驱动公司的第二特性

Yahoo已经对数据科学作出了很多重要的贡献。在看到Google使用MapReduce来分析海量数据后,他们认识到了自身需要同类的工具来完成自己事务这就是Hadoop,现在是数据科学家的最重要的一项工具之一。Hadoop已经由Cloudera,Hortonworks,MapR等公司商业化了。Yahoo并未停步于Hadoop,他们注意到流数据的重要性,而这是Hadoop不能给出很好的解决方案的。目前Yahoo致力于开源工具S4来解决流数据问题。

支付服务,如PayPal、Visa、American Express和Square,靠自身技术能力领先于对手。它们使用精密的欺诈检测系统来发现数据中的异常行为模式。这些系统必须在毫秒级时间做出反应,其模型需要在新数据生成后实时更新。这工作就像在不断堆叠新草的草堆中找出一根针那样。

Google和其他搜索引擎常态地监测搜索相关的度量来识别哪些情况是用户只是在耍弄系统哪些情况可以帮助改进用户体验。Google所面临的数据移动和处理的挑战是巨大的,也许比目前所有其他的公司的都大。为了支撑其业务,他们不得不发明新颖的技术解决方案,从硬件到软件如MapReduce再到算法如PageRank),其中很多方案的思想都已经流入开源软件项目中。

最强的数据驱动组织的座右铭“If you can't measure it, you can't fix it”。这是从一个牛人那儿学来的。这个态度给人一种美妙的能力来传达这种价值,其方式包括:

  1. 产生和收集尽量多的数据。不管你是做商业智能还是构建产品,如果不能收集数据,你就不能使用数据。
  2. 以一种积极和省时的方式来度量你的产品或策略是否成功?如果你不去度量结果,你又如何得知呢?
  3. 让更多的人来观察数据。任何问题可能只是因为一些简单的原因导致。更多有经验的专家可以从不同的角度迅速发现问题出在哪儿。
  4. 刺激对数据产生变化或者不变的背后原因的好奇心。在一个数据驱动的组织,每个人都在思考数据。

当然,假装自己是一个数据驱动的组织其实很简单。但是如果你试着以上面的心态来收集数据和度量你能做到的每件事,思考自己收集的数据背后的意义,你将会超前于大多数只是嘴上说说的公司。并且我需要指出的是,当我在对专业的数据科学家介绍这些内容时,并未限制其他的人来了解这些知识。每个人都应该看看数据

-------
translation from part of the book: Building Data Science Teams

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容