数据分析方法论

【面经】数据分析岗_面试题整理总结

必问问题

订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)、三个常用的app、商业模式(之前产品的cpc和cpm)

1、订单/流量波动(【业务理解(指标定义,如DAU怎么才是活跃)-指标口径(渠道)-数据产出链路(哪份日志、哪些过滤清洗得来的)】;是否存在恶意的刷流量)
1、判断是正常?异常?:数据产生链路、拉长时间轴;2、最大概率法则归因:假期、热点、双11、政策;3、形成闭环:持续跟踪、文档化!!!、邮件化。

2、常用app:
网易云音乐(喜欢每日推荐,吐槽没有听歌识曲和语音输入,以及下面的热门搜索跟我的画像不匹配)、知乎。
如何解决吐槽点?先看热门搜索的点击量,如果较低的话说明虽然位置有曝光但没人点击、确实有问题。
怎样评估这样做带来指标的提升?先小流量(灰度-5%)AB测试,然后慢慢放量,如果效果还不错就全量。

3、工具类产品如何商业化:墨迹天气(首页的天气button是主流量入口、下拉出现咨讯、里面有较多的广告app下载链接,这是一个app带量商业化;时景button有景点、住宿app下载推荐,这是一个自身app高相关的商业化推荐;Me这个button,分生活、娱乐、休闲和游戏四大板块)。

方法论:AB测试(正交性)、最大概率法则、幸存者偏差(当取得资讯的渠道,仅来自于幸存者时(因为死人不会说话),此资讯可能会存在与实际情况不同的偏差。用 对照试验 和 贝叶斯公式 来消除幸存者偏差;抛掉对个案的迷信,全面系统的了解才能克服这个偏差)、相关性分析(子产品对大盘的贡献度或影响度——>相关性,并可以进一步作回归分析)等。

二、四大行业数据分析

四大行业数据分析

电商

电商零售的北极星指标:交易额(北极星指标)、首页分发效率、核心转化率/漏斗分析、新用户获取的场景分析;


整体分析(APP引流) + 核心路径分析(漏斗) + 痛点分析(用户)
  • 首页分发效率:CTR【CTR = 点击UV / 曝光UV】和人均访问(点击)页面数【=总方位页面数 PV / 总访问UV】;发布新版本更需要关注上述两个指标。


    首页分发效率

互联网金融(数据建模师)

互联网金融(数据建模师)

金融行业常用逻辑回归LR

模型的离线效果(实际工作,还是坏账率这个指标最重要
总结

游戏行业

常规指标

商业化指标
  • 流失分析:渗透率都是针对具体的功能模块。
    流失定义
  • 商业分析(变现):看中收入 + 体验游戏

传统销售行业

核心指标:销售额完成率。


传统销售行业的核心指标:销售额完成率
如何分析一个陌生行业

三、具体方法论

1、指标体系搭建方法论:
日功能渗透率=该功能的日点击人数 / 日活
功能渗透率=功能渗透率 / 大盘用户数。
核心指标(日活 VS 有效用户量:打开后几秒算活跃)

用户画像 + 行为特征

2、流量分析方法论(渠道、转化、价值、波动
流量分析:渠道、转化、价值、波动

前期看有效用户数(排除刷量,即除了看量级,还要看主动行为的用户)、次留;中期看次日、7日、30日留存;后期看ROI
前期看有效用户数、次留;中期看次日、7日、30日留存;后期看ROI

数有没有错(数据采集与统计口径);用户行为、内容与功能/产品;
波动:日活与留存

3、路径分析(漏斗分析不能满足实际需求)方法论
漏斗分析(先有假设再数据验证) VS 路径分析(先有数据再验证假设)

4、产品分析(竞品分析)方法论
画像
产品:生孩子;运营(用户运营:提新增、拉留存、降流失;用户运营需要内容运营和活动运营来支撑):养孩子;数据分析:持续观察孩子的指标。
5、营销活动(拉新、促活、带??)分析方法论
数据分析师主导埋点(含字段名、埋点位置、上报方式)
建议指标:新增、首次、低活(结合业务来定义)带动;并关注上述用户的后续留存。
6、用户流失分析(增长分析)方法论——摩拜和滴滴的案例(漏斗思维分析获客和激活;留存与活跃)
增长黑客AARRR转化漏斗(建立产品壁垒):

  • 拉新角度(流量思维、渠道思维;烧钱、野蛮增长的时代):AARRR转化漏斗
  • 留存角度(产品 / 用户思维:做好产品与运营服务):留存——变现——推荐——拉新——激活。
  • ROI思维(未来资本越来越理性):变现——推荐——拉新——激活——留存。

分析师的任务:做规模和带收入(独立思考,跳出现有模型)、多研究用户数据。

常用的用户增长方法:魔法数字;优化渠道结构、提升新增用户留存;流失用户召回。
实际很好的2个增长思维:北极星指标:MAU=新增+老=本月新增+上月新增留存+上月老用户留存+上月老用户回流;AB测试。

四、专题分析标准化流程

思维(建立逻辑树)、技术、时间管理、ppt、演讲能力。

问题定义与拆解:用户下跌原因的逻辑树拆解

用户下跌原因的逻辑树拆解.PNG

分析角度

结构分析(各渠道)、对比分析(含AB测试)、时间序列分析(二次拆解找波动项)、相关性分析、机器学习。实际上所有的分析都是基于用户的基础属性和行为属性。


围绕5W1H构建分析角度;围绕5W1H构建用户画像???

真实专题报告撰写

PPT要有数据结论,结论是基于业务方给出的落地项,落地项要非常具体(含时间、人和语气效果)。——基于XX数据,发现XX结论,基于这个结论的建议是XX,基于这个建议的产品落地项是XX。

专题报告标准化组成

五、数据分析师的个人素养

行业分析

界定范围(产业链图谱,在全局视野下找切入点)、市场规模(交易额GMV描述、用户数描述)、社会热点事件、头部玩家(产品分析、用户分析)、未来预测。


行业分析:问题的识别与拆解

数据仓库

  • 埋点(主动性+文档化):APP日志采集中的埋点,前期建立埋点规范,后期不投入太多时间、但要文档化;数据分析师主导埋点(含字段名、埋点位置、上报方式)。
  • 建模:
    建模步骤
    头条的ODS层数据(即日志)
    头条的DWS层数据
    头条的DM层数据
  • 数据管理
    计算管理;存储管理;权限管理。


    计算管理;存储管理;权限管理

用户研究(快输出——2周内;线上 / 线下调研)

横坐标是态度和行为、纵坐标是定量与定性(定性研究侧重用户分类、定量研究侧重样本量和代表性)来划分四象限。


用户研究贯穿项目的前中后期

时间管理

非常好的博客:Spring数据分析思维课
【数据分析师八大能力】
分析思维 第二篇:数据指标体系
[转帖]AARRR已是过去式,而RARRA才是更好的增长黑客模型
【互联网产品经理入门】

A/B测试与假设检验

假设检验.PNG

分流模型:通常网站会利用分域、分层(将流量复用)、分桶(圈定用户群:保证用户的完全随机且互斥)的机制保证流量高可用以及分流的灵活性和科学性。

分域、分层(将流量复用)、分桶

  • 分桶(圈定用户群:保证用户的完全随机且互斥):
    做实验很重要的一点就是圈定用户群,要圈定两组完全随机且互斥的用户,一组分配给A,一组分配给B ,比较初期的一种做法是根据用户唯一tag(一般使用userid、deviceid,cookie等)对1000取模分成1000个桶,然后选择不同的桶分配给A和B。
    流量是有限的,实验数量可以无限的,如果我们选用了60%的流量做了实验一,那只剩下40%的流量做实验二,那实验三怎么办呢?
  • 分层(将流量复用):
    分层是为了将流量复用,即一个用户可以处在多个不同的层上,不同的层的流量完全打散,互不影响。具体来说,在上一层001桶的所有流量,理论上应该均匀地随机地分布在下一层的1000个桶中。常用做法是通过页面来分层。
    所以在实验设计时:一般将不同页面的多个功能实验(一般互无影响),放在不同的层上;
    而将同一页面的多个功能实验(一般互有影响),放在同一层上的不同实验;从而保持两个实验的流量完全独立;通过可重叠的分层分桶方法,一份流量可通过N层可以同时参与N个实验,而且实验之间互不干扰,显著提升流量利用率。
    通常在做实验时我们会考虑一些先决条件,例如我只针对上海地区的用户做实验?此时该怎么控制呢?
  • 分域:
    在正常的实验过程中,我们一般会从总体流量中按照一定的维度去划分一个个流量区域,来做实验,比如一部分实验针对北京用户,一部分针对上海用户。如此,就引出了另外一个概念,“域”。这里划分出的流量池就是一个域,在这个域里还可以进行分层实验,不同域之间流量隔离,所有的流量域加起来共享100%流量。

抽样:应该保证同时性(分流应该是同时的,测试的进行也应该是同时的)、同质性(设备特征、用户属性、用户行为、用户付费特征(消费习惯及贡献度))、唯一性(要求用户不被重复计入测试)、均匀性。
如何判断是不是真的同质?可以采用AAB测试。抽出两份流量进行A版本的测试,进行AA测试,并分别与B版本进行AB测试。通过考察A1和A2组是否存在显著性差异,就可以确定试验的分流是否同质了。

确定检验类型:在判断用什么检验的时候,首要考虑的条件是样本量(检验类型:小于30即T检验),其次是总体服从的分布(抽样分布类型:是否正态分布)。

样本容量大时(统计学上一般认为 n≥30),总体的均值和标准差未知,不要求总体近似服从正态分布。根据中心极限定理,样本容量大,则样本均值的抽样分布服从正态分布,总体标准差可以用样本标准差来估计,可用Z检验
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差已知,可用Z检验;
当样本容量小于30,且满足总体近似服从正态分布时,如果总体标准差未知,可以用样本标准差去估计总体标准差,由此可用T检验;
当样本容量小于30,且不满足总体近似服从正态分布,不能用Z检验和T检验。

改进版:若总体标准差已知(无论样本大小)都用Z检验;若总体标准差未知,都用T检验。不过当样本量够大的时候,T分布也近似于Z分布了,所以最后的结果不会差很多。T分布其实是小样本的Z分布。一个样本的自由度越大,样本方差就越接近总体方差,T分布也就越接近Z分布。因此T分布的形状随自由度的变化而变化,自由度越大,越接近正态分布

T检验的类型
①单样本的T检验:
检验单个样本的平均值是否等于目标值。例如:某大学的学生平均身高是否大于全国平均身高167cm;
②配对样本均数T检验:
检验相关或配对观测之差的平均值是否等于目标值。例如:为了检测减肥药是否起作用,随机抽样出20名测试对象,记录每个人服药前和服药后的体重。(同一组样本。问题:有残留效应);
③两独立样本均数T检验:
检验两个独立样本的平均值之差是否等于目标值。检验闯关游戏教学方法是否有效,分别在两组学生上进行效果测试。

指标选定

  • 转化率检验(卡方检验) eg:展现点击转化率,留存……
  • 均值检验(T检验) eg:人均使用时长……

实验周期

一般两周。前3天在实验阶段,参考价值不大(不过能看出实验是否有问题);4-10天数据相对稳定,可作为测试结论。

结果比较

最后根据假设检验的结果,判断哪些版本较之原版有统计意义上的差异,并根据效应量选出其中表现最好的版本。

测试存档(复盘)

指标体系与统计口径

AB测试-假设检验的示例

案例1:今日头条app界面的广告位,放在第四位比较好。

项目简介:案例数据是对web新旧页面的A/B测试结果,目标是判断新旧两版页面在用户的转化情况上是否有显著区别。
数据描述与来源:数据来自Udacity的示例案例,数据共计近30万条,可能有意制造了一些脏数据。数据集含5个字段:用户的 user_id、时间戳 timestamp、分组 group(实验组or对照组)、展示的页面版本landing_page(新版or旧版)、该用户是否转化 converted(0-未转化 or 1-转化)。

假设检验(A/B测试)
AB test的一些了解
【数据分析专题】-常见框架(模型)

案例1之异常值:抖音新用户留存整体分析

竞品分析、营销活动分析、用户流失分析


整体分析:渠道侧的(下钻至一级、二级渠道)、产品侧的(功能渗透率、关键路径;路径转化)、用户侧的画像与行为特征

从整体进入优化切入点分析:

实现落地,形成闭环
结合AAARR构建视频类内容指标体系.png
Spring数据分析思维.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容