【进阶篇】找个饭店,聊聊数据分析架构

燕飞出稿,必属精品~

作者简介:燕飞,Kyligence 大数据老司机,拥有超过15年的大数据/数据仓库领域从业经验,对大数据/数据仓库的建设规划、架构设计、技术体系、方法论及主流厂商的产品和解决方案,均有深入的研究和实践。

在之前的文章《讲透大数据,我只需要一顿饭》里,我用做饭这件大家身边的事情来介绍了大数据及数据分析工程,应该能够让大家对数据分析这件看上去很专业的行业有了一定的认识,很高兴的是文章也得到了很多数据圈专业人士的共鸣和互动。

这篇文章我们会顺着之前的思路,稍微深入一点,聊聊数据分析架构。

什么叫数据分析架构,说的通俗点,其实就是数据采集(买菜)、数据建模(配菜)、数据加工(炒菜)、数据分析(吃菜)这些数据分析流程应该如何划分功能模块(专业化分工),才能方便灵活、规模化、最大化的满足广大数据消费者(吃货)的数据分析(美食)需求。

就好比吃饭这件事,我们可以自己在厨房里做,去饭店吃,或者叫外卖等不同方式,这几种吃饭方式是人类生活方式的一种进化,更是通过不同的专业化分工满足了吃货们不同时期、不同层次的需求。

而数据分析作为一件相对来说比吃饭更专业的事情,也同样需要通过流程设计和专业化分工来满足更广泛的数据消费需求,我们通常叫做架构设计。

闲话少说,先直接上图,我把迄今为止的数据分析架构的历史简单分为三个阶段:

数据分析1.0阶段:业务报表

这个阶段是数据分析的初始阶段。随着数据库技术的出现,企业纷纷开始信息化建设,业务流程信息化沉淀了大量数字化的业务数据,而数据分析的需求其实大家一直都有,既然有了数据沉淀,通过这些数据进行报表统计和数据分析的需求自然就出现了。

1.0阶段,数据分析开始萌芽,数据加工、报表统计都在业务系统里直接进行的(数据产生和数据分析都在同一个系统里进行,所以这个时候还没有数据采集一说)。

这就好比自己在家里做饭吃,可以想象,由于食材(数据)、厨房(数据库资源)、手艺(专业能力)等方面的限制,吃饭的体验不会太好(大概体验如下图),主要满足吃饱(报表统计)的需求。

数据分析2.0阶段:数据集市

由于在业务系统里直接做数据分析体验不好,还可能会影响正常的业务流程,而企业数据分析的需求越来越完善,业务人员自然而然的希望在业务系统之外专门搭建一个用于数据分析的独立新系统,既能用于支持数据分析,又可以不影响正常的业务流程,于是,数据集市应运而生。

从数据集市开始,数据分析开始作为一个正式的行业出现,出现了从业务系统到数据集市的数据采集和传输(买菜)需求,另外,数据加工,数据分析等专业岗位和从业人员开始出现。

这就好比饭店的出现使得在吃饭这件事上出现了专业化分工,同时也开创了餐饮行业。饭店里有人专门买菜,配菜,炒菜,大厨开始出现,这一方式很好的满足了广大吃货在省事、美食选择、口感方面的需求,体验自然是棒棒的。

数据分析2.5阶段:数据仓库

随着企业数据分析活动如火如荼的开展,数据集市开始越建越多,同样的数据加工逻辑、指标等难免在分散的数据集市里被重复计算,浪费计算资源不说,经常就会出现数据统计口径不一致的问题,让领导们不知道自己该相信哪个数据。

这就好比饭店开的多了,同样的菜品在不同的饭店里难免会雷同,但是同一个“鱼香肉丝”不同饭店做出来的的口味难免会不一样,吃货们肯定会迷惑哪家才是最正宗的,也希望知道哪个才是最好吃的。

这个时候,数据仓库概念应运而生。

数据仓库为了解决数据集市分散建设带来的数据不一致、重复计算浪费资源等问题,提倡以一个集中式平台来统一进行数据采集、数据清洗、数据加工,并且向外部提供各种数据分析产品和服务。

数据仓库算是开创了数据分析史真正意义上的一个时代,对数据分析行业的发展和成熟有着不可磨灭的贡献:

诞生了专门的数据仓库技术(MPP,massively parallel processing)以及一大批相关的专业厂商,来解决大量数据需要集中进行存储、加工和分析的技术难题

发展了体系化的数据仓库系统建设方法论和最佳实践

培养了一大批数据仓库从业人员(DWer)

既然,数据仓库时代在数据分析史上有着如此重要的地位,并且在今天仍然有着深远的影响,那么,问题来了。

为什么数据仓库阶段只是2.5而不是3.0呢?

首先,从架构的角度来看,个人认为数据仓库相对于数据集市并没有本质的区别,这个从上面的“数据分析架构发展的三个阶段”图中也能看出来,数据集市和数据仓库的架构是非常相似的,数据仓库可以简单的认为是一个超级数据集市,区别只在于规模,这就好比为了规范菜品质量,让大家能够一站式吃到各种五花八门的菜品,我们开了个超级大饭店,虽然这个饭店很大,但仍然是个饭店。

其次,数据仓库以解决数据集市数据分散、数据口径不统一为目标,提出了打造企业级统一业务视图的愿景(The single view of business ),其建设方法强调数据采集规范化,数据管理标准化以及数据加工流程化,这种建设思路从数据管理的角度来说是非常有价值的,产出了很多成熟的数据管理规范和数据治理方法论。

但......是......

从数据分析的角度来看,虽然数仓系统的建设的确一定程度上满足了业务部门的数据分析需求,然而,传统数据仓库建设方法在灵活的支持各种数据需求、敏捷的响应分析请求、普及企业数据驱动的分析文化方面,却始终心有余而力不足

造成这种情况,虽然有着技术、成本方面的原因,但架构耦合性高、建设方法过于僵化也是重要原因,比如:

数据仓库集中式的平台架构方式,将数据加工和数据服务都通过一个平台来支持,必然会造成资源竞争,无法兼顾。这就好比一个饭店里,后厨占得地方太大,堂食的空间就小了,能够同时响应的消费者数量必然受到限制。

数据仓库的数据加工是层层递进、环环相扣的方式,有着严格的加工流程,并且涉及到多个角色的互相配合,任何一个数据分析需求,从需求的提出到最终实现,快的要好几周,慢的要好几个月,自然是跟不上业务的快速变化。客户到了饭店,只要是想点个菜单上没有的菜品,饭店都需要把买菜、洗菜、配菜、炒菜这些环节都走一遍,上菜起码得等2、3个小时甚至是第二天才有,没有哪个消费者能忍受的了吧。

很多数仓采用数据驱动的建设方式,不管是不是需要的数据,先往仓库里放,总觉得以后会用的上,导致仓库规模极速膨胀,并且存在大量无产出数据,运维成本和难度非常大。就好像开个饭店不管客人喜欢吃什么,先把能买到的菜都买来,抛开成本不说,光是运输、清洗、仓储的工作量就能把人给耗死。

数仓建设有着成熟完善的数据治理配套理论,什么元数据管理、数据标准管理、数据质量管理等等,但是这些理论的落地往往最走变成了一纸规范,却没法和数据仓库建设过程有机的结合,最后变成了你定你的规范,我建我的系统,或者是我先建系统,你再定规范,随着系统越来越庞大,没人能够很清楚的知道仓库里到底有什么,整个数仓自然就变的难以管理和使用。

于是,虽然数据仓库进行了数十年的发展,很多企业也是花了大量的人力和成本来进行数据仓库系统的建设,但缺乏敏捷性的平台建设方式,自主选择少,服务响应慢,各类数据消费者的满意度始终都不高

因此,慢慢的,很多企业中的数据仓库系统,开始变得有点古代皇宫御膳房的味道,汇集各种食材,对于食材、流程、样式有着严格的加工规范,充分保证了菜品的质量和水准,但是其上菜速度、翻台率以及能够服务的食客数量都受到了极大的限制,所以只有能力为特定群体(皇家)提供各种特定的菜品。

所以,虽然数据仓库对于数据存储、数据采集、数据加工、数据治理这些方面发展了成熟的方法论(相当于专业的饭店后厨管理理论),但对于满足各种灵活、敏捷、普及的数据分析需求,其作用一直是被诟病的。

而进入到今天的大数据时代,这个弊病就更加的明显。

大数据浪潮带来的挑战不仅仅是数据量的爆发式增长,更重要的是把个人、企业、政府对数据、数据分析的重视性提升到了前所未有的高度,整个社会对数据分析的需求也呈现爆发式的增长。所以,Gartner提出了平民数据科学家(citizen data scientist)的概念,更有厂商和业内大牛喊出了“人人都是数据分析师”的口号。

企业如何满足成千上万的内部员工对于数据分析的需求?企业如何满足千万级以上的外部客户对于数据分析的需求?政府如何满足上亿的社会大众对于数据分析的需求?这成了大数据时代的数据架构师们需要去回答的问题。

可以说,用户日益增长的数据分析需求与落后的数据服务能力之间的矛盾已经成为大数据时代的主要矛盾。

所以,数据仓库强调数据加工流程而忽视数据服务效率,过于严苛、繁琐的建设方法,数据开发与数据治理脱节的问题,使得其难以快速进行规模化扩展,也就无法应对爆发式的数据分析和数据服务需求,抛开技术、成本上的限制不说,传统数仓的建设方法论显然也是无法解决大数据时代的主要矛盾的。

那,大数据时代,大数据分析架构的出路在哪呢?什么样的数据平台建设方法才是最有效的?是否可以在数据仓库成熟的建设方法论上进行改造来应对爆发式的数据分析需求?

外卖来了,这次就先聊到这里,吃完外卖我们再接着扯~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 151,511评论 1 330
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 64,495评论 1 273
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 101,595评论 0 225
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 42,558评论 0 190
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 50,715评论 3 270
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 39,672评论 1 192
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,112评论 2 291
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 29,837评论 0 181
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 33,417评论 0 228
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 29,928评论 2 232
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,316评论 1 242
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 27,773评论 2 234
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,253评论 3 220
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 25,827评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,440评论 0 180
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 34,523评论 2 249
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 34,583评论 2 249

推荐阅读更多精彩内容