数仓--Theory--对数据中台的理解

本文从概念和理论上进行整理学习

数据中台是什么

主流概念上讲

  • 数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
  • 广义的数据中台:既包括了数据生产力工具,也包括了利用数据生产力工具做数据赋能落地的过程、组织和结果;
  • 狭义的数据中台:专指数据生产力工具;

注意

  • 数据中台建设的基础还是数据仓库和数据中心,并且在数仓模型的设计上也是一脉传承,之所以我们现在处处推崇数据中台建设及应用,一个是因为数据中台确实有过人之处,另一个是这套模型在阿里体现了巨大的应用价值。(来源袋鼠云数据中台专栏(一) :浅析数据中台策略与建设实践
  • 数据中台是解决数据“存”、“通”、“用”难题,让一切业务数据化,一切数据业务化!
    ER图如下:


    数据中台ER图.jpeg

数据中台具体包含那些内容

“数据中台”一般包含以下几个部分:
1、数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
2、大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
3、数据资产管理:按照阿里的体系应该分为垂直数据、公共数据和萃取数据3层;
(来源什么是 数据中台,关于数据中台最好的解读

总结:数据中台的内核包括两个方面,一个是应用数据的技术能力,一个是数据资产的管理。‘

以阿里为例

  • “第一是数据技术。没有数据中台的时候,不管是阿里内部还是各商家,大家都有自己的数据中心、机房、小数据库。但当数据积累到一定体量后,这方面的成本会非常高,而且数据之间的质量和标准不一样,会导致效率不高等问题。因此,我们需要通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。”
  • “第二是数据资产。数据中台把阿里系的数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而保证为集团各业务和商家提供高效服务。”
  • “第三和第四都是数据服务,包括服务商家和服务小二。例如生意参谋和阿里指数,就是数据中台中面向商家端提供的数据服务。”
  • “数据中台服务阿里,说白了更多是在为各位商家服务。平台会确保大家在使用数据的过程中,口径、标准、时效性、效率都有保障,能有更高的可靠性和稳定性。”

(来源数据中台到底是什么?)
重点在数据服务和数据效率与质量。

数据中台的价值

从数据架构和企业文化两个方向去理解,理解清楚了才会明白!

从企业数据架构讲有以下四点

(来源什么是 数据中台,关于数据中台最好的解读

01-数据资产管理

盘点数据资源、规划数据资源、获取数据资源,并将所有数据资源进行完整呈现;通过元数据信息收集、数据血缘探查、数据权限申请授权等手段,解决"有哪些数据可用"、"到哪里可以找到数据"的难题,并且提升数据资源的利用率。

02-数据质量管理

数据质量就是保障数据正确性的工具,主要包括这么几部分:一是支持准确性校验规则,二是支持双表校验,三是输出校验报告。

03-数据模型管理

数据模型管理,主要是为解决架构设计和数据开发的不一致性,是为了约束平台使用者的表名、字段名的规范性,架构师从工具层合理的进行模型分层和统一开发规范,包括2部分,一个是规则配置,另一个是对表名、字段名的定期校验。

04-构建标签体系

对用户、产品、客商、营销各主题域进行标签提取,将其特征数字化,为后续进行精准营销和用户画像提供必要条件。着重分析当前需要但是无法获取到的指标,描述使用不便的指标,分析问题原因,绘制数据供应链条;

05-数据应用规划及实现

数据中台策略的基本理念是,将所有的数据汇聚到数据中台,以后的每个数据应用(无论是指标和分析类的,还是画像类和大数据类的)统统从数据中台获取数据,如果数据中台没有,那么数据中台就负责把数据找来,如果数据中台找不来,就说明当前真没有这个数据,数据应用也就无从展开。

从企业文化上讲

(来源企业的数据中台的价值

01-回归数据的本质--数据重用
  • 今天的浙江移动已经将2000个基础模型作为所有数据服务开发的基础,这些基础模型做到了“书同文,车同轨”,无论应用的数据模型有多复杂,总是能溯源到2000张基础表,这奠定了数据核对和认知的基础,最大程度的避免了“重复数据抽取和维护带来的成本浪费。
  • ”曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份,无论是抽取压力、维护难度及数据一致性要求都很高。同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的诉求,这点的意义巨大,谁都知道数据1+1>2的意思。
02-数据中台需要不断的业务滋养
  • 在企业内,无论是专题、报表或取数,当前基本是烟囱式数据生产模式或者是项目制建设方式,必然导致数据知识得不到沉淀和持续发展,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。
  • 究其原因是模型建设往往是项目式的建设方式,一旦项目结束,在面对业务提出更多需求时,项目模型团队可能已经撤离了,或者考核指标早已经随着项目结束,模型提供者在主观上没有太大的积极性去满足新的需求,如果当初模型的扩展性设计的不好,或者时间太紧,或者系统稳定的需要,往往导致有心无力满足新的需求,结果是数据模型无法再扩展,成为事实上稳定的但无用的模型。
  • 其实,业务最不需要的就是模型的稳定,一个数据模型如果一味追求稳定不变,一定程度就是故步自封,这样的做法必然导致其他的新的类似的数据模型产生,当越来越多的模型都采用自建的方式满足需求时,意味着老的数据模型就可能要离开历史舞台了,而留下的是割裂的成千上万的模型,也就失去了模型知识沉淀的可能,曾经做过一张几百个字段的万能宽表,由于太大后来就没人敢去动它,随着新的业务不断增加,这张宽表的价值却越来越低直至退出历史舞台。
  • 数据模型不需要“稳定”,而需要不断的滋养,只有在滋养中才能从最初的字段单一到逐渐成长为企业最为宝贵的模型资产。
  • 其实标签也一样,做过不少异动标签或离网模型,曾经效果不错,随着公司转型流量经营,原来以语音异动判断为主的这类标签开始难以适应变化,但后续已经没人能改得动它,这个标签也就退出了历史舞台,退出的可不仅仅是一个标签,这个标签承载的所有的既有经验也就被废弃掉了,想想这些标签当初花了多大的代价做成就会感觉非常可惜。
  • 再以报表为例,企业报表成千上万的原因往往也是没有沉淀造成的,针对一个业务报表,由于不同的业务人员提出的角度不同,会幻化出成百上千的报表,如果有报表中台的概念,就可以提出一些基准报表的原则,比如一个业务一张报表,已经有的业务报表只允许修改而不允许新增,自然老报表就会由于新的需求而不断完善,从而能演化成企业的基础报表目录,否则就是一堆报表的堆砌,后续的数据一致性问题层出不穷,管理成本急剧增加,人力投入越来越多,这样的事情在每个企业都在发生。
03-数据中台是培育业务创新的土壤
  • 企业的数据创新一定要站在巨人的肩膀上,即从数据中台开始,不能总是从基础做起,数据中台是数据创新效率的保障。
  • 搞过机器学习的都知道,没有好的规整数据,数据准备的过程极其冗长,这也是数据仓库模型的一个核心价值所在,比如运营商中要获取3个月的ARPU数据,如果没有融合模型的支撑,得自己从账单一层层汇总及关联,速度可想而知。很多合作伙伴的数据科学家到一个企业水土不服,除了业务上不熟悉外,往往还面临着数据准备的困境,取数的高难度导致他难以快速的去验证想法,企业想借助外力去搞数据创新有时成了一厢情愿。
  • 标签也一样,企业打造标签可并不仅仅是做几个标签那么简单,它需要打造的是一个标签服务平台,要能最大限度的规范标签的格式,接入方式,组合方式,调用方式等等,只有这样,基于标签的二次快速创新才有可能,企业每发布一个新的标签,就意味着新增了一种能力,这才是数据知识的真正传承。比如当常驻地模型发布成为标签平台的一个标签后,以后凡是涉及到常驻地判断的都可以直接调用,这极大降低了关于用户位置数据准备的成本。
  • 在如今的互联网时代,企业都在全力谋求转型,转型的关键是要具备跟互联网公司一样的快速创新能力,大数据是其中一个核心驱动力,但拥有大数据还是不够的,数据中台的能力往往最终决定速度,拥有速度意味着试错成本很低,意味着可以再来一次。
04-数据中台是人才成长的摇篮
  • 记得笔者刚进企业的时候,要获得成长一是靠人带,二是找人问,三是自己登陆各种系统去看源代码,这样的学习比较支离破碎,其实很难了解全貌,无法知道什么东西对于企业是最重要的,获得的文档资料也往往也是过了时的。
  • 现在有了数据中台,很多成长问题就能解决,有了基础模型,新人可以系统的学习企业有哪些基本数据能力,O域数据的增加更是让其有更广阔的视野,有了融合模型,新人可以知道有哪些主题域,从主题域切入去全局的理解公司的业务概念,有了标签库,新人可以获得前人的所有智慧结晶,有了数据管理平台,新人能清晰的追溯数据、标签和应用的来龙去脉,所有的知识都是在线的,最新的,意味着新人的高起点。
  • 更为关键的是,数据中台让新人摆脱了在起步阶段对于导师的过渡依赖,能快速的融入团队,在前人的基础上进行创新。数据中台天然的统一,集成的特性,有可能让新人打破点线的束缚,快速构筑起自己的知识体系,成为企业数据领域的专家。

数据中台和数仓的区别

来源数据中台与之前的数据仓库有什么区别?

  • 从职能概念上讲:

    • 数据中台不单单指工具或者系统,而更是像一个职能部门,通过一些列的平台、数据、工具、流程、规范来为整个组织提供数据资产管理和服务的智能部门;数据中台负责全域数据采集、数据资产加工和整理、并向前台业务部门和决策部门提供数据服务的,所以数据中台的核心应该是数据资产管理和数据赋能。通俗的讲就是数据弹药库。
      数据中台职能篇.jpg
  • 数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大差异。

  • 从数据源讲:

    • 数据中台的数据来源期望是全域数据包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。数据的来源可以是结构化数据或者非结构化的数据。
    • 而传统数仓的数据来源主要是业务数据库或者日志信息,数据格式也是以结构化数据为主。数据仓库通常采集某个主题域的数据。
  • 从建设目标讲(数据能力服务化):

    • 数据中台:建立数据中台的目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域比如用户主题域,商品主题域,渠道主题域,门店主题域等等。数据中台遵循三个one的概念: One Data, One ID, One Service,就是说数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。数据中台让更多的前台应用共享数据中台提供的数据能力(比如:数据API,数据标签,数据监控等);
    • 数据仓库通常是为了分析某些业务指标,或分析某个主题数据,目标更明确,输出更多的是数据结果,而不是数据能力。
  • 从数据应用上讲:

    • 数据中台:在数据应用方面,建立在数据中台上的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。而且这些应用的特点是比较轻,容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,之前工作成果都能被多个应用共享。
    • 数仓主要是面向主题和决策。
  • 从投资回报率看:

    • 数据中台输出的是数据能力,在建设数据中台的时候,是预估使用方对数据能力的需求,所以要考虑ROI;
    • 数据仓库通常是有明确的需求才会建设,一般不会考虑ROI。

数据中台开发存在的挑战

  • 数据中台的建立不是一蹴而就的,每个企业都应该基于实际打造独有的中台能力,在这个过程中,需要遵循一些原则:首先,企业的组织架构及机制需要顺势而变,比如以前负责数据的部门或团队往往缺乏话语权,面对业务需求往往是被动的接受的角色,这让一切数据中台的想法化为泡影,需要为数据中台团队授权。
  • 其次,要改变工作方式,现在很多企业的数据团队的主要工作内容就是项目管理、需求管理等等,当一个项目完成后又投入到下一个项目,做好一个需求后又开始负责下一个需求,这样的工作确实非常锻炼人的组织、协调能力,但这样能力的提升与工作时间的长短并不是呈线性增长的,虽然增加了项目和需求管理经验,但并不能在某一个专业领域得到知识和经验的沉淀,随着时间的流逝,越来越多的人会失去最初的工作积极性和创造性,事实上,数据人员只有深入的研究业务、数据和模型,端到端的去实践,打造出数据中台,才是最大的价值创造,才能使得持续创新成为可能。
  • 第三,数据中台的团队要从传统的支撑角色逐步向运营角色转变,不仅在数据上,在业务上也要努力赶超业务人员,中台人员要逐步建立起对于业务的话语权,不仅仅是接受需求的角色,更要能提出合理的建议,能为业务带来新的增长点,比如精确营销。
  • DT时代,接下来整个社会会进入开放共享的时代,致力于大数据变现的企业最大的价值就是将这些核心数据能力进行对外开放的运营,到那个时代,数据中台将成为企业最为宝贵的资产。从个人的角度讲,将自己的贡献幻化为中台能力,能够持续的为公司创造价值,这是值得骄傲的事情

推荐阅读更多精彩内容