20180114-数据的本质

image.png

一、数据主义,未来一切都将数据化

1、大数据不是独奏,而是不断连接、无处不在的数据

作者在阿里就经历了4个不同阶段:数据驱动决策、数据驱动流程、数据驱动产品、数据驱动业务。在此过程中,你会发现,数据驱动的目标越模糊、数据越零散、人的互动环节越多,智能项目开展起来就越吃力。

商业基础正因众多终端带来的全域大数据而发生着改变。它带来的变革不限于数据本身,还有思考社会和商业模式将如何被改变的全新角度。这么多零散的数据和维度叠加在一起,下一难题就变成了如何保证有效地存储、更新、辨识和连接这些数据,并灵活地使用它们。当数据从传统PC端转移到移动终端时,我们往往会遇到两大误区。 第一个误区是把智能手机当作一个新增的媒体渠道,相当于另一个屏幕,这是完全不够的。手机作为功能设备产生的行为数据,不仅有时间维度,还有空间维度和社交维度,这么多维度叠加在一起,分析的层面和方式也远远多于传统网页。 第二个误区是用同样的方式考评PC端和移动终端。在PC端,我们更关注流量转换的指标,而移动终端更在乎的是参与度。

与大数据的4V(量大、多样、速度、价值)相比,移动大数据的核心重在实时(real time)、适时或最佳时机(right time)以及全时(all the time)。任何一个完整的高效服务都离不开这3T。

2、数据相关性比数据本身更重要

在信息爆炸时代,拥有大量信息可能是灾难而不一定是好事,也不等于你有能力用好它。从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动型公司的必要条件。

用上了“无中生有”的伎俩,并量化了早上的会议,目标是了解集团CEO关注什么。我快速将其他人演讲的内容记录下来,同时记录了在其他人演讲期间CEO的几个动作信号:点头、写笔记和发问。大家可能已经明白,我是在量化领导对每一个主题演讲的专注度。当然,如果领导从头到尾都在玩手机的话,说明他对内容根本不感兴趣。领导的一举一动,无疑都间接地反映了他对什么内容比较关注或者有想法,什么内容是被他当垃圾扔掉的。

一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的。量化是对被量化的事物的一种映射,就像照X光片。关键是,我们要明白量化后的数据是为了解决什么问题,以及在量化的过程中如何降低噪声,增加稳定性。当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。记住,要学会无中生有的量化,要有足够的观察、足够的理解及数据收集。

我们就应该做到以下几点: 澄清什么是X。例如,你想量化“开心”,但究竟什么是“开心”?“开心”跟“快乐”是否一样?你需要不断用问题去澄清X! 如何量化X?如果我们认为开心的表现是笑,那我们可以量化“微笑”吗?面部情感识别的技术,微软已经有较成熟的软件了。 量化之后能够增加我们对X的了解或者减少不确定性吗?我们能否找到量化后的“开心”指数,并在应用中确认其价值?否则只能回到第一步,重新澄清什么是X。

3、数据流动在于利益关系

阿里时,作者是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

数据应用的理解历程:第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据。

如果让我总结这其中的精髓,我的秘诀是:数据分析也要讲究用户体验。 数据产品设计的切入点必须要问“目标问题是什么”“什么样的数据才能解决这个问题”。只有得到用户的信任,我们才能够做出更多的好产品。产品需要不断迭代,而非一劳永逸。这就是我们做产品的理念。

二、 数字经济引擎,智能商业的核心

1、不懂商业就别谈数据

数据产业的另一关键是开源的小区、公司之间的合作与竞争关系并存。从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。懂得这个道理的公司才会是未来的数据之王。数据使用权必然会是未来企业之间最大的竞争空间,当然也可能是最大的合作空间。

任何安全原则要想得到业务方面的支持,就必须契合企业的商业目标、风险承受能力和部署能力。而今天,大部分企业的管理层对数据安全还没有达成共识,要做到这些相当困难。

阿里在数据化实践过程中有三大原则: 相信数据是未来所有业务的核心竞争力。 不在线的数据,不是大数据。 数据的有效使用与高度流通要有互惠互利机制。 如果我对你说,2010年时,阿里的数据化运营也是摸着石头过河,最初的数据分析产品还不到50个用户,业务方对数据化管理一点也不感冒,大家可不要感到奇怪。

数字经济引擎包括4种形态,分别是数据驱动决策、数据驱动流程、数据驱动产品以及数据驱动数据。

所以,我对有意布局数字经济的企业有8个建议: 关注业务决策的过程,从问题中寻找数据化的机会。 企业数据能力的泛化,要建立在数据产品的灵活性上。 建立规范,确保数据供应的质量及稳定性。 促进企业内部数据共创与共享机制的建立。 建设外部数据积累及有使用权的数据战略储备。 培养海量数据的深度分析能力。 阻碍大数据发展的是伦理和法规。 把“门窗”关好,数据越多,责任越大。

从被动走向主动、从静态检讨转向动态学习,数据闭环系统的理论和架构没有太多改变;改变的只是科技在闭环系统中对断点的修补、第三方数据对视野的开拓、人对自己在闭环系统中所扮演角色的定位及价值的认知,以及反应速度不断提高的闭环系统本身。

2、智能时代,数据才是根本

我们并不缺少数据,我们缺少的是对数据战略的想象,以及看见调制解调器之后动手撷取的能力。

首先,我们必须有足够高远的眼界,“知道有”这些数据的存在; 其次,我们要有足够的知识与经验,“知道用”这些数据去解决当下面临的问题; 最后,关键是有足够的技术与知识,“懂得用”这些数据,利用它们解决相关问题。

要从战备上对大数据进行应用,企业现阶段务必要培养几个基础能力。

第一,更广泛地连接万物。

第二,从被动接收到主动收集。

第三,更深入地分析,更准确地行动。

第四,更高速、更全面地学习。

互联网领域,数据的规模、活跃度,以及收集、运用数据的能力,已经成为企业的核心竞争力之一。在深入洞悉市场、快速精准地找出应对策略时,数据已经成为企业实现更大商业价值的最强驱动力。当然,数据作为一种企业资产,需要与其他资产,如人力资源、硬件等相互组合才能发挥出最大的价值。

人工智能因大数据而重生,但制约人工智能在各领域实现更广泛利用的,并不是算法不够先进,而是缺乏高质量的数据。若想开发最先进的机器学习技术,能否获得高质量的训练数据极为关键,而如何启动是大部分企业的一个难题。

每家公司的数据获取策略不尽相同,但回想这么多年我在阿里也算面对了不少类似的困难,希望抛砖引玉与大家分享几点。 从零开始创建好的专有数据集,几乎永远意味着,预先投入大量人力收集数据。但更痛苦的是,业务变化的同时,数据结构也需要时时更新,正如前辈所说:“数据集成的同时已经在断裂。” 即使是表面上拥有很多数据,但在运用机器学习时,仍会发现数据量的不足。你需要的数据量与你试图解决的问题紧密相关。 数据的收集、处理、运用,短期来说肯定是越贴近业务越有效率,然而从长远看并不利于数据的标准化及重复使用,导致开发周期变得漫长。我的经验是,起点可以从最小化应用做闭环,基于众多应用做长线规划。 确保早期创造的应用有足够的吸引力,让业务方及使用者甘愿交出他们的数据。大数据落地除了关乎技术问题,亦系于业务方及个人的意愿是否足够。只有互利互惠,才有长久合作。 在大范围使用大数据之前,必须严肃地面对数据的标准和质量问题,否则后果堪忧。数据驱动型企业须明白,数据质量是全部员工的责任,并不仅仅是技术问题。 大数据安全是一个命门,数据越多,责任越大,而且有时候会超出你的想象。原以为很安全的数据拼合其他数据之后,可能成为机密级别。

3、数据,未来企业的核心资产

数据的存在是为了能够有效地解决问题,而解决问题的核心与关键还是在于预测。客户的行为数据不一定能产生交易,但可以让我们更了解他,让我们知道他为什么会买或者为什么不会买。通过行为数据去发现客户如何做决策是个重要课题,即使是负面数据也可能有正面作用。

中小企业要有清晰的具体目标:希望数据帮自己做什么、数据能解决什么问题。必须谨记,我们面对的是消费者,数据的收集、整合、决策、反馈都必须从消费者出发,以人为中心。这样才不至于太分散,盲目地“为了数据而数据”。另外,企业不应把客户看成一个整体,因为解决了客户的一般性需求,不等于了解了客户的特殊需求。在大数据的驱动下,批量生产的个性化或许并非遥不可及。

在清洗数据时,定义一个数据口径的地方,往往便是成败的分水岭。若对数据口径和商业之间的理解不够,便会影响到我们最初的认知,事倍功半。

本书好问题

1、大数据的本质是什么?数据体量的背后隐藏着什么样的诱惑?--我认为,最好的比喻莫过于拼图:如果你玩过一个1 000块以上的拼图,应该不难体会,开始的5%拼起来最为吃力,拼了25%后,你就渐入佳境了。

2、有些CEO问我,如何打通企业各部门之间的数据,进而防止阳奉阴违的事情继续发生?

3、问题来了:商业运营的过程能像无人驾驶汽车一样实现全面的自动化吗?

4、在反思大数据时代数据中心的运作方式时,企业必须考虑以下几个问题: 监控日志应该在哪里,以及要收集什么?

5、数据收集和流通时的加密机制是否完善?

6、安全原则有多大程度会影响业务效率?

7、数据敏感度的静态分层与基于业务的动态分类有多大区别?

8、企业是否有能力捕捉到危险情报,并及时处理可疑行为?

9、如何确保有足够多的数据来发展人工智能?需要储备什么样的人才?我认为,大家都忽略了大数据能力的根源来自连接,而连接的基础是数据的流通和标准化。

10、我在阿里工作时共做过三次,并归纳了一些经验: 什么样的数据用量大、覆盖率高?具有公共属性的数据。 什么样的数据稀缺但重要?具有战略性的数据。 什么样的重要数据不可再生?因此必须备份。 数据资源用完可以再用!因为复制成本极低。 大数据的关联特性,让数据权属的边界变得越来越模糊。

金句

1、思维所造成的障碍永远多于技术本身。

2、是否知道用户是谁,决定了企业数据收集行为的意义大小。

3、互惠互利才是大数据流通的永恒关键。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容