数据处理-数据产品的视角

数据通过埋点收集上来(先前有介绍埋点技术、埋点通用的事件模型),需要进行数据处理。

数据处理的概念太过大,本文将介绍:

(1)数据采集后数据流的处理过程;

(2)数据处理中的关键知识点:数据仓库

一、数据处理过程

数据从各种异构的数据源中,处理、汇总,最终展示为报表、仪表盘、动态数据分析查询等等。

step1.异构数据源

(1)通过数据采集到的服务端、客户端用户行为日志;

(2)用户的历史信息,定性信息(e.g.性别,职业的用户画像数据),定量信息(e.g.近30天的某个兴趣倾向程度);

(3)第三方等获取的信息;

step2.以上这信息大都需要二次加工、清洗,生成结构化的数据;

(1)脏数据的清洗、整合,如延迟数据的按照发生日归纳;

(2)生成用户基础数据、行为数据的基础表,以提高数据的易用性;

(3)生成用户&行为结构化业务应用表,这部分数据直接服务于业务,贡献于报表展示、数据查询/分析/挖掘等;

轻描淡写的2个步骤,却是数据存储、合理化、最大化利用的关键。

二、数据仓库(Data Warehouse)

而刚刚描述中数据获取、数据存储、提供给使用方都是数据仓库系统的部分,其实体是我们常见的各种数据库表,如常见的hive,spark,Oracle等。

1.数据仓库分层

为什么要做分层呢?

a.更清晰的管理、追踪数据(清洗的数据结构、明确的血缘关系);

b.减少重复计算,通过建立通用的中间表,减少重复计算

c.分解数据处理过程,将复杂的数据->业务应用,拆解成多个步骤,每一层只处理单一的步骤,便于维护、定位问题;

d.更高效的访问数据,避免用户直接访问基础数据;

数据分层具体是指?

缓冲层(Buffer):用于存储每天的增量数据和变更数据,直接从kafka接收源数据。

操作数据层(ODS):该层级的数据,最接近数据源的原始面貌(内容和粒度与原始数据一致),通常是数据源直接经过ETL后,存储于此。从原始数据到ODS层,不建议做复杂的数据清洗,以免破坏原始数据,引起不必要的排查成本。建议仅进行(a)将json记录的日志,映射到各字段中;(b)作弊数据的清洗;(c)数据转码:将编码映射成具有真实含义的值(d)数据标准化,e.g.把所有的日期都格式化成YYYY-MM-DD的格式;(e)异常值修复; e.g.视频播放表:(包含用户id、视频id、播主、播放时间等)。该原数据日志为服务端上报的json格式,经历字段解析、作弊数据清洗、异常播放时长的数据后,产生该表。

明细数据层(DWD):基于业务过程建模,即对ODS层做一些业务层面的数据清洗和规范化的操作;

汇总数据层(DWS):依据业务需求对ODS层的数据进行了汇总;

应用数据层(ADS):基于业务需要进行的统计数据,e.g.各类型视频的播放统计。

维度表(DIM):存放基础信息,如用户属性表-性别、年龄等等。

除了固定为分层外,当然还有临时表(TEM)。

各层级数据表的关系:如下

各层级数据表

阿里/华为的数据仓库数据分级:操作数据层(ODS,Operational Data Store)、明细数据层(DWD,Data Warehouse Detail)、汇总数据层(DWS, Data Warehouse Summary)和应用数据层(ADS,Application Data Store),维度表(DIM,); 操作数据层、明细数据层、汇总数据层都是公共数据层。

2.数据仓库每张表的搭建,主要依赖于这个表在整个数据仓库中的作用和相关意义。

(1)首先要清楚这个表为了解决什么问题而存在的?

如果是ODS层的表,是否将原数据的有意义字段均清洗过来?

如果是DWD层的表,是否清晰、明确的记录了业务层面的明细数据?

如果是DWS层的表,是否能够有效、便利的服务于业务方向统计需求?

如果是ADS层的表,是否能够得到业务需要的统计数据?

如果是DIM层的表,是否全面记录了后续分析或统计需要用的各个维度?

(2)什么角色使用,表是否足够易用?是否内容冗余?是否安全?

业务线的同学是否能够通过几条简单的SQL语句,拿到数据结果?

可以通过单张表格统计到数据还是需要多表关联获取?

单张表是不是内容冗余,是否会影响查询效率?

多表关联时,是否会有业务理解上的坑,e.g.多表间的字段是一对一,一对多,还是多对多,如何让使用者清晰的理解?

表中是否涉及敏感的字段,比如金额等,使用群体是否有足够的权限获取这些信息?

以上都是我们设计数据表时需要考虑的。

3.元数据管理

元数据及应用也是数据仓库的重要组成部分。它是描述数据的数据(data about data),描述数据的属性信息;可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据。

元数据记录了哪些信息?

(a)数据的表结构:字段信息、分区信息、索引信息等;

(b)数据的使用&权限:空间存储、读写记录、修改记录、权限归属、审核记录等其他信息;

(c)数据的血缘关系信息:血缘信息简单的说就是数据的上下游关系,数据从哪里来到哪里去?

在数据排查是可以明确的知道数据在哪个环节出了问题,从而快速定位问题。

也可以通过血缘关系,建立起生产这些数据的任务之间的依赖关系,进而辅助调度系统的工作调度,或者用来判断一个失败或错误的任务可能对哪些下游数据造成影响等等。

(d)数据的业务属性信息:记录这张表的业务用途,各个字段的具体统计口径、业务描述、历史变迁记录、变迁原因等。

这部分数据多是业务方手动填写,但却是表使用过程中必须的信息,建议可以设计在建表/修改表的过程中,强迫建表人员填写/维护相关信息。

4.离线数据仓库&实时数据仓库

根据数据实时性,数据仓库可以分为离线数据仓库、实时数据仓库。离线数据仓库主要记录t+1以上的数据,以天、周、月数据计算为主。实时数据仓库是随着人们对实时数据展示、分析、算法的需求而出现的。

学习过程中参考:http://www.mdjs.info/2018/04/07/datatalk/usage-of-ods/#more

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容