为什么数据对齐这么难?(数据质量系列之一)

(文章始发个人公众号:川术;欢迎关注)

引言

作为数据分析师,我们的日常工作中,“核对数据”在所难免;某些“命途多舛”的时节,甚至几天都在解决口径核对的问题。同样的一个指标名称,数值却千差万别;各方有各方的说辞,听上去都有道理,可凑到一起,除了“撕逼”再无其他。为了解决这样的困局,最近我开始介入到口径治理这样的项目中。折腾快一个月,发现自己最初也低估了事情的难度。打算边干,边总结,边写,写成一个数据质量系列。希望这段经验能为更多人所用。

原因剖析

一、对数据业务发展阶段没有准确的认知

我所在的是某互联网独角兽公司。在这样的公司,大家往往会产生“我们数据量很大=我们的数据很全面=我们的业务是数据驱动的=我们能用好数据=我们能把数据分析做好”的美好幻觉。说实话,这个幻觉只有第一部分准确,而往往是数据量极大,才会使得后面的问题更加突出。本文的目的并不是一一戳破幻觉,因此暂不展开。

数据业务发展阶段的认知

如上图,我是这么总结一个公司或者部门的数据业务发展阶段。要做到口径清晰,人人用对,至少发展到“分析师能描述&业务方懂量化”的程度。而现实是,我们还没有达到“分析师取对数&业务方要数据”的层次。
何谓“能描述”?即分析师能深入理解业务上下文,能构造一个或者多个信效度都优秀的指标,将业务问题准确表达。何谓“懂量化”?即业务方(数据结果的使用者),能够理解分析师构造的指标逻辑和目的,能够将指标的变化与业务变化对应上,并且在表达和应用中,保持“同名同意”。

二、数据基础设施不健全

取相同指标,10个人有10个数据源外加10种sql写法,3个环节都还会出错,要对齐,概率比中500万高不了多少。因此,在数据基础设施上总结起来就一句话:“异人,同源,同路,同法”。同源,即将数据分析师应用的数据源尽量减少。数据仓库的层次清晰:

  • 最细颗粒度的底层表,不同主体具备唯一性,专人高频维护。
  • 不同业务部门的数据汇总需求,做成主题式的表或视图,继承于唯一性的底层表。
    同路,即指标维护有相应的平台;核心指标的口径和样例代码,长期稳定,变更要有严格审核流程。
    同法,即不同的分析师遵照同一平台和规范,定义指标并写代码。
    (数据基础设施完善是一个专题,会有专门讨论的文章。)

三、数据使用者高估自己的头脑

前面说到过数据量大造成的一系列幻觉。其中“我们是数据驱动=我们能用好数据”这个环节,尤其容易蒙蔽双眼。老板强调“数据驱动决策”本没有错,但并不意味着强调了,我们就掌握数据驱动。很营养的东西吃多了,并不会身强体健,而会消化不良。这当中有一个“学习消化”的环节。
训练自己的大脑,使其具备更清晰的逻辑思维能力,更多样化的思考框架,是应用数据的前提。现实情况中,我们总会发现,不管是分析师还是业务人员,面对着一堆数据、图表或者模型结果,不知所云;管理层听得似懂非懂,听众不懂装懂。我们大多数人(包括90%时间的我自己),面对问题和数据,只能应用最低效的思考方式,说好听点叫“启发式思维”,说难听点就是“想一出是一出,全靠蒙”。不训练,哪来的脑力提高?
举一个更具体的例子,我称之为“数据质量悖论”:

因为数据对不上的问题,许多业务人员没有安全感,会从多个数据源(多个分析师或者多个数据产品)取数核对,而多个数据源的计算逻辑是他们的“脑力”所不能支持的,因此会有更多核对不上的问题,造成更大的不安全感。这种不安全感会转化成对数据团队负面的反馈和评价,进而造成更多人的不安全感和数据团队的信心缺失,这个循环的波及面就会迅速扩大。

这个悖论,听上去让人很绝望,这就是数据对齐很难的一大核心原因。有解决方案吗?应该是有的,但我们正在寻找中。有一点可以明确,那就是控制自己脑子获取的数据量。我们都应该承认:我们是不够聪明的,而数据是复杂的(多指标交叉多维度)。所以,不要轻易“四处要数据”。

四、分析师没有规范&数据使用者没有质量意识

这一点,也许是目前困境的最直白表述。
目前,我们的某些分析师取数写码非常“想当然”,即只按自身理解来提取数据,完全不理会已有的数据平台上对于指标的标准定义和样例代码。加上业务方没有数据质量意识,拿了就用;再加上业务领导也没有数据质量意识,听了就信,信了就决策。。。
从这个角度说,我希望所有数据的使用者,拿到一个结果,先好好审核,有没有计算口径说明,是不是合理且标准的定义,多反问对接的分析师。以我的理念,在数据报告或者产品中,不写出口径定义的分析师,都是耍流氓,这是一种及其不负责任的行为。
许多分析师,总把注意力集中在模型、算法、业务决策、产品方案等看上去高大上的事情上,不是说这不对,但这需要根基。根基就是踏踏实实的数据质量:

  • 高质量的sql代码:注释全面、口径明确、层次清晰。
  • 严谨、负责的职业素养。
  • 全面、及时的沟通习惯。

五、数据应用能力尚待提高

简单地说,就是所有人,都要多学习,而且是互相学习。如果人人都懂业务、懂数据分析、懂产品、懂开发,那我相信就没有这么多数据对不上的“幺蛾子”。但我知道这是不可能实现的。但人具备复合型的知识,非常有必要。我们不需要门门精通,但需要样样入门。锻炼我们的思维,梳理我们的逻辑,不要用我们既有的知识去理解发展当中的问题。
最后,入门数据分析,推荐我的书
《数据化运营俗称手册》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容