漫谈 数据PM与数据工作

随着互联网行业的快速发展,产品经理的分工也不断细化,同时随着大数据技术的发展、数据中台等概念的兴起,近几年兴起了一种职业——数据产品经理。那么数据产品经理工作的价值是什么?数据产品经理到底是做什么的,主要需具备哪些技能,能力模型又是怎样的?作为一个2岁多的数据PM,这些问题是我常常思考的。本文就这2年多的经验,结合《数据驱动:从方法到实践》谈谈我的一点看法。

一、数据工作的价值是什么

数据PM的工作是数据工作中的一个环节,因此数据PM工作的价值与数据工作的价值是一致的。那么,数据工作的价值是什么呢?我认为主要是两方面:1)数据驱动业务/产品决策,提升决策效率及质量;2)数据驱动产品智能,进而提升运营效率。

数据驱动业务/产品决策,最常见的应用是通过AB测试方法,决定产品策略。

数据驱动产品智能,最常见的应用是我们经常提到的数据中台概念,通过打造「one data」「one ID」统一平台数据、统一账号体系,以及建立基于数据的上层应用(比如:推荐系统等)从而促进数据共享,提高运营效率

二、数据PM的工作职责是什么?数据PM的能力模型是什么?

由于这是一个相对比较新的职业,关于数据PM的工作职责,不同公司的要求不尽相同。大体来说工作职责可以分为以下几类:

1)数据分析类,通过数据分析为业务提供决策建议

2)工具类(数据平台类),数据平台可以是:BI平台、埋点平台、AB测试平台、自动化运营平台、监控平台或者是一些SaaS/PaaS平台等等

3)策略类,持续优化算法模型

4)数据治理类,侧重于基础数据工作,比如:数据清洗、数据建模、基础数据提取、元数据管理、数据质量管理 等

基于以上分类,我们大概能够列出数据PM所需具备等能力:

1)产品基本功,包括基本的分析方法、产品设计、交互设计等

2)数据分析方法,定义进行业务分析的指标体系

3)熟悉数据工作的各个环节:数据采集、数据ETL与加工 以及 数据应用

根据不同的工作侧重点,我们可提升相应的技能

三、数据工作介绍

数据工作总体可以分为:数据采集、数据传输、数据存储、数据加工与建模、数据应用 这5个环节

3.1 数据采集

数据采集是数据工作的基础,有数据才可以进行后续的数据应用工作。说到数据采集,就必然要提到——数据埋点。

随着移动互联网和智能硬件的发展,产生数据的源头也更加丰富了:智能硬件、APP、浏览器等。而数据埋点的方法主要分为前端埋点和后端埋点。前端埋点和后端埋点对比如下:

前端埋点VS后端埋点

其中,前端埋点可以分为3种方式——代码埋点、可视化埋点、无埋点(全埋点)

代码埋点 & 可视化埋点 & 全埋点

若想把数据平台做好,数据源非常重要,是所有上层应用的基石,其中关键是要确保数据的准确性。实际的工作实践中,可能会存在数据不准确的问题,数据不准确的原因有以下几种情况——

1)网络异常网络异常是导致数据不准确的直接原因之一。比如我们在使用APP时,可能因为网络异常,导致用户的操作行为并没有被及时发送到统计服务器端;或者这些服务是公共的SaaS服务,在一些网络的高峰期,比如晚上8点,同时有大批的APP用户向服务提供商发送行为数据,这样就容易导致网络拥堵,就像春运期间在12306网站抢购车票一样,容易导致某些请求丢失,造成数据不准;再者为了应对网络异常,我们通常会采用重传、间隔上传之类的策略,而这些策略由于标准不统一,也会带来统计的不一致。对于APP来说,在发送过程中,缓存到本地的数据如果到达上限,可能会造成部分数据丢弃。

2)统计口径不同。同样是活跃用户应该如何统计?启动APP就属于活跃?还是首页加载完成才算活跃?用户是否要完成其他关键行为?这里就极易出现偏差。如何定义一个新用户?有多久没有再次应用产品才算新用户?另外由于用户Cookie被清除的处理策略不同等因素,看似同一指标,却会造成实际数值的偏差。

3)代码质量问题一方面,由于众多的手机生产厂商及手机操作系统的发行版本,以及APP的开发框架和程序代码质量等问题,可能会导致SDK在某些情况下不能被有效调用,或者重复发送,这样也会导致数据的准确性问题。另一方面,负责埋点的工程师,可能因人为失误漏掉某些行为事件的采集。

4)无效请求比如竞争对手的恶意攻击,Spider等进行的抓取操作,都会导致数据的异常。

基于以上原因,提升数据准确性的具体策略主要包括以下几个方面——

1)采集关键行为,推荐后端埋点。对于关键行为,如订单交易、注册等,推荐后端埋点,提升数据的准确性。

2)进行事件设计和明确统计口径,保证统计数据的质量。

统计口径不同,是人为因素中最大的问题。一般SaaS统计系统是采用通用的统计指标模型,即不管是什么APP,均采用一样的统计策略。但对于客户的自有产品来说,总有一些自己的特殊定义方法,特别是针对一些边界用户的处理。对此,我们还是要进行事件设计,以保证统计质量。具体来说,分析师要和业务人员一起梳理业务流程,并拆分出关键用户行为事件(Event),以及事件相关的维度。在进行一些多维分析时,如漏斗分析、留存分析,以及基于事件与维度进行统计,数据会更加精确。比如,在嵌入多个子页面的一个页面中,加载过程应该算几次PV?

3)需要具有完善的元数据管理和埋点管理。

元数据管理可精细化管理每个行为事件的属性类型定义,埋点管理会跟踪每个埋点的数据量、校验通过量等,出现异常要及时发现。系统还应提供Debug模式,以精确跟踪每一条数据是不是按预期的计划进行处理。实时导入监测功能,可以通过用户ID及其他属性,筛选实时采集的数据,精确定位问题。总之,是要把数据采集从“黑盒”变“白盒”。

4)通过多维分析能力快速定位异常。

分析工具要提供灵活的多维分析能力。这可以保证数据实时接入和实时查询,加上底层的数据是事件级的粒度,可以跟踪用户的每一步操作以及筛选相关的维度。这样在追查数据异常的时候,通过多维分析和用户详细轨迹,很容易快速地定位问题。通过以上一系列策略,我们就可以让数据采集达到较高的质量标准。

3.2 数据传输

前端埋点/后端埋点通常将数据上报到日志服务器(日志服务器只是一个抽象概念)中,通过Kafka或flume(也可以是别的)进行数据传输,收录到Kafka中,供下游消费。

3.3 数据存储

离线:flume采集原始日志数据——>Kafka收录日志数据——>数据ETL——>存入Hadoop

实时:flume采集原始日志数据——>Kafka收录日志数据——>实时读取及计算

3.4 数据加工与建模

1、数据模型

关于数据建模,比较常见的是多维数据模型。按照事实表,维表来构建数据仓库,数据集市。

事实表是用来记录具体事件的,表示在某人(who)什么时间(when)什么地点(where)以什么方式(how)完成了什么事情(what);维表则是对事实表中事件的要素进行详细描述。

比如一个事件会包含时间、地点、人物、事件,事实表记录了整个事件的信息,但对时间、地点和人物等要素只记录了一些关键标记,比如人物只记录了user_id,user_id=1表示的是哪个用户则需要通过维表进行查找。

基于事实表和维表就可以构建出多种多维模型,包括星形模型、雪花模型和星座模型。

2、数据分层

为什么做数据分层?对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:

1)清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。

2)减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

3)把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。

如何进行数据分层?

可以把数据仓库分为下面三个层,即:数据运营层、数据仓库层和数据产品层。

数据运营层,也叫ODS层(Operational Data Store,操作数据存储),是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层。ODS层的数据,总体上是按照源头业务系统的分类方式而分类的。

数据仓库层(DW),是数据仓库的主体。DW层从ODS层中获得的数据按照主题建立各种数据模型。例如以研究人的旅游消费为主题的数据集中,便可以结合航空公司的登机出行信息,以及银联系统的刷卡记录,进行结合分析,产生数据集。

数据产品层(APP),这一层是提供为数据产品使用的结果数据。在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在es、mysql等系统中供线上系统使用,也可能会存在Hive或者Druid中供数据分析和数据挖掘使用。比如我们经常说的报表数据,或者说那种大宽表,一般就放在这里。

3.5 数据应用

1、BI数据平台

数据最常见的应用形态是BI,个人认为BI最重要的价值在于,以可视化的方式提升数据的表达力,以更直观的方式呈现数据,让数据更易读易用。

BI的发展相对比较成熟,BI系统的核心功能模块基本比较明确,下图是我结合实际工作及一些主流BI类系统,抽象出的BI系统的架构图。

BI商业智能系统架构


2、搜索推荐类(机器学习算法)

鉴于我并没有太多搜索推荐方面的经验,后续如接触相关案例,再进行补充。



参考文章:

数据分层:https://blog.csdn.net/tp15868352616/article/details/82049360

数据建模:https://blog.csdn.net/zzq900503/article/details/78492505

参考书籍:《数据驱动:从方法到实践》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268