数据中台与数据平台的关系

不管是要弄清楚数据中台还是数据平台,都逃不开这几个问题。

为什么是大数据?
数据资产指哪些内容?
做大数据的是不是一定要写代码?
数据如何体现业务价值?
什么是所谓的数据安全?
...

这几年最火的莫过于“中台”,各公司纷纷打造自己的业务中台和数据中台,顾名思义,业务中台,是为了解决业务共性问题,而对服务进行的统一抽象。公共服务融合,产生标准化解决方案提供上层应用使用。那么,数据中台是什么,和原有的数据平台之间是什么关系。

本文重点描述一下数据在使用管理侧的变化,同时站在笔者的角度,来解释为什么很多公司有的大数据平台,缺依旧要打造数据中台。

数据资产

数据资产指大数据中的价值部分。随着信息化程度越来越高,数据生产的方式也越来越多。

这些数据里,有的数据是当前存在价值,例如监控类日志;有的数据是在一定周期内存在价值,例如平台根据用户过去半年行为来判断用户是否流失;有的数据则是永久价值,例如用户基本身份信息;有的则是一些无价值数据,比如一些与预期数据格式或内容不符的脏数据。

数据经过生产,采集,清洗,转化,加工,这一系列的操作,最后入仓完成持久化的数据信息,就是系统所需的数据资产。

从维度上划分,包含用户画像,用户行为数据(浏览,购买,收藏等),内容资产(信息流、商品SKU等),模型资产等。

数据的体现上,又表现为实时数据和离线数据。实时数据,实时获取实时处理,秒级反馈。例如双十一大屏。离线数据,数据定期采集,汇总,以某一固定周期进行加工计算。例如用户半年消费金额。

一个企业未来的价值,一方面在于主营业务的发展,另一方面表现在所掌握的全网数据资产。拥有数据资产越多的企业,可以很好的完成应用导流,精准人群覆盖,趋势预测,使商业更加透明化。

数据存储

任何一本计算机普及教材上,都会标注,数据在计算机上,会存储在内存或磁盘中,内存快但小,磁盘大但慢。。。

所以呢,当一台机器磁盘空间不够时,用两台,三台,一百台,构成集群分片存储,保障数据容量,同时多备份保障不丢失。当一台机器不够计算时,MapReduce,RDD,在多分片上进行数据处理,之后完成数据结果汇总。分治思想,几乎贯穿了所有的大数据应用。

多数大中型企业,都会有自己的数据管理平台,通常以hdfs为存储介质,yarn为调度,hive、spark为计算引擎,kylin,presto为OLAP引擎。这些组件混合,也就构成了通常意义上的大数据平台。

整个ETL的过程,就是数据从采集清洗到入仓的过程,把不同阶段的数据,分层存储,就形成了传统意义上的数据仓库。

所有的数据应用,都会构建在以数据仓库为元数据的平台之上。

数据计算

数据计算,就是从一堆杂乱的数据中,抽取出所需的部分。

例如

获取一个人最近半年对母婴用品上的浏览量、收藏量,下单量和交易金额。通过这样的结果数据,对此用户进行母婴评级。

这种问题在任何一家电商企业都是很常见的需求。但实现起来,却有一定的复杂度。

首先,用户浏览数据,通过点击流上报,以用户访问页面的行为为触发,进行内容主动上报。

收藏量,从用户的收藏列表中获取,同时需要对商品类别做区分,商品类别在商品模块里。

下单量和下单金额,可以从用户的订单里进行统计,但同时要扣除部分用户退单数据。

这只是一个基础的计算问题,但是依旧要使用到很多维度的基础数据进行融合,那么更为复杂的计算,不但要涉及到不同的数据块,不同的时间周期,不同的数学模型,还有不同的数据规格及存储结构。

数据赋能

数据计算、加工的目的,当然是为业务服务。有人需要订单信息,才会有相应的订单加工需求。

业务人员多半都不懂这些数据存储的方式和差别,又不能要求每一个管理集群,做数据存储加工的同学熟悉全部的业务逻辑。因此,为平衡这类问题,多半会由研发同学发起,开发一套可视化的数据平台,业务人员只需要鼠标点点,就能完成底层数据的混合,加工,展示。这样的基础平台,提供了数据采集,存储,计算,展示,并有可视化的ide提供出来。可以由非研发的业务人员自由组合操作,从而达到自己的业务要求。这也就是通常意义上的数据平台。

那么,有了这个基础设施,每个人都可以再上边加工自己的业务,我要一份用户A的订单数据,通过各种融合,得出了结果。别人也需要这份数据,他也需要在做一遍吗?当然不用,拿现成的就行。这样一来,有一百个人有相似业务要求,我们就节省了99次的计算,这样的基于数据平台,又完成了业务层内容抽象的平台,被越来越多的公司定义为数据中台。

总之,数据平台就是集成了常用大数据组件,覆盖了大数据处理的各个环节,提供出的一套基础平台。可提供技术人员和非技术人员自由进行业务开发运算。数据中台就是依托数据平台,再平台之上以业务沉淀为背景,构建一套完整的基于业务场景的数据计算服务,并将各服务有效提供给应用使用,同时对各应用的数据资产进行有效管理的平台。

任何一种技术,都是为业务服务,大数据也不例外。数据本身不具备行业价值,一定是在特定的行业背景下,才能发挥足够的作用。因此,行业里越来越多企业提出,数据服务业务化。

数据中台将各种数据应用的共性需求进行抽象,形成数据能力,避免重复场景出现浪费过多的人力成本。数据中台管理的内容包含应用、用户、资产及能力(大部分以API方式提供)。

随着业务的逐渐开展,所需的业务指标也越来越多,不但有统计型指标,还有很多预测型指标。通过以往数据表现,对未知数据进行结果预判,这就是一个机器学习过程。因此,在数据平台之外,通常都会有一个机器学习平台,从数仓里获取历史数据,经过一系列模型加工,生成对未知数据预测的模型表达式。这部分内容,同样是数据资产的重要组成。提供出来的模型计算服务,也会通过数据中台封装对外赋能。

数据安全

很多企业都在做着数据发财梦,随之而来的,是数据的盗用,滥用。很多数据绑定了用户的隐私信息,身份信息,购物信息,浏览信息,位置信息,偏好信息等。在法律法规上,这些数据由用户通过平台生产,理应所属用户。平台通过对这类数据挖掘分析,更好的服务用户,但如果将数据外泄、转卖,就触碰了红线。

既然数据需在合法合规的方式下使用,那么如今行业进行数据赋能最大的障碍就是多种所属数据融合。任何一家企业都不会贸然把自己的数据给到其它企业。但又希望能进行数据融合赋能,因此就衍生出了很多技术方向的解决方案,例如联邦学习,智能合约等。

写在最后

随着B端业务的逐渐崛起,更多的企业把目光投向了行业解决方案。一方面通过业务积累完成业务沉淀,另一方面就是想数据赋予更多的业务属性,实现行业价值最大化。不管是数据平台,还是数据中台,都会在未来的业务场景中,占据越来越重要的位置。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容

  • 写下几个字,生活已安逸。和人在聊天,多涉及秘密。别人的隐私,无意中听及。都不是好事,只是嘴上语。说话有秘密,心中有...
    李一十八阅读 406评论 1 3
  • 我不是一个较真的人 踩到大便不追究是谁拉的 吃到苍蝇不在乎是雄还是雌 所以每当小明问我 “你是上天派来的使者吗?”...
    留子尧阅读 164评论 0 2
  • 1.学习如何阅读英语文章长句的方法(各种句型句式,可以从雅思阅读课中找到方法)。 2.定义标记的方式,比如浅黄色马...
    dearTaya阅读 281评论 0 0
  • 不要试图去寻找一条通往幸福的路,幸福本身就是一条路。 和朋友聊天,她说起自己和老公的种种不愉快,各种家务事琐碎事给...
    苏少梅阅读 728评论 1 1