设计A/B 测试

项目概述

在本项目中,你所要考虑的是由优达学城运行过的一个真实试验。具体数字已做更改,但是模式并没有改变。你要将试验的想法变成一个完整定义的设计、分析其结果,并提供一个高层次的后续实验。

试验设计
指标选择

不变指标:

① Cookie的数量:由于试验的是网站首页子页面,不影响首页Cookie数量,因此Cookie数量不变。

期望结果:不变

② 点击次数:点击次数发生在‘开始免费试学’按钮触发之前,cookie不变,点击次数不变。

期望结果:不变

③ 点进概率:点击次数和cookie都不变,因此点击概率不变。

期望结果:不变

评估指标:

① 总转化率:试验中的一周5小时或更多的学习时间影响用户的选择,从而影响完成登录并报名参加免费试用的用户id数量,也是我们此次A/B test测试要研究的问题之一,因此是个评估指标。

期望结果:减少

② 留存率:试验中每周5小时甚至更多的学习时间的要求,会影响付费用户数量和完成免费试用的用户比例。

期望结果:增大

③ 净转化率:试验中每周5小时甚至更多的学习时间的要求,会影响付费用户的数量。

期望结果:不变

说明:为何user id既没有被选择为不变度量,也没有被选择为评估度量,因为它发生在试验之后,由于实验组和对照组的cookie数量是不一定相同的,也就是说两组中的uese id数量受到试验的影响,也可能受到cookie的影响,因此若使用了uesr id则不能很好评估试验效果。

测量标准偏差

总转化率

N = px = 0.085000 = 400

P = 0.20625(已知)

SE= Sqrt(p(1-p)/ 400)≈ 0.0202

总转化率是以点击“开始免费试用”按钮的唯一 cookie 的数量为分母,也即分析单位,此分析估计与经验变异相似。

留存率

N = px = 0.20625400 = 82.5

P = 0.53(已知)

SE= Sqrt(p(1-p)/ 400)≈ 0.0549

留存率是以登录的用户id数量为分母,与转移单位cookie不相似,即分析单位与转移单位不相似,也即分析估计与经验变异不同。

净转化率

N = px = 0.085000 = 400

P = 0.109313(已知)

SE= Sqrt(p(1-p)/ 400)≈ 0.0156

净转化率是以点击“开始免费试用”按钮的唯一 cookie 的数量为分母,也即分析单位,此分析估计与经验变异相似。

规模

样本数量和功效

不使用Bonferroni****校正,本试验中总转化率和净转化率都不是独立的,而是相关联的。

页面浏览量通过在线计算器(http://www.evanmiller.org/ab-testing/sample-size.html )****计算样本量(alpha = 0.05,beta = 0.2),再转化为实验组的页面浏览量,再乘以2得出

所需的页面浏览量为:685325

① 总转化率

baseline conversion rate:20.625%(已知)

Minimum detectable effect:1%(已知)

样本数量:25835

实验组页面浏览量:25835/0.08 =322938

总页面浏览量:322938 * 2 = 645875

② 留存率

baseline conversion rate:53%(已知)

Minimum detectable effect:1%(已知)

样本数量:39115

实验组页面浏览量:39115/0.20625/0.08 =237060

总页面浏览量:2370606 * 2 = 4741212

③ 净转化率

baseline conversion rate:10.93%(已知)

Minimum detectable effect:0.75%(已知)

样本数量:27413

实验组页面浏览量:27413/0.08 =342663

总页面浏览量:342663 * 2 = 685325

取其中较大值,但是留存率算出来需要的页面浏览量474万,相对于每天4万的页面浏览量,这个结果太大了,所以舍弃留存率这个指标。

在总转化率和净转化率算出的取较大值,最后使用净转化率需要的页面浏览量685325;

持续时间和暴光比例

曝光比例是80%

曝光比例需要考虑实验的风险性和实验周期,具体来说:

风险性上:

① 试验询问的是用户每周能投入的时间,不会对用户的身心产生不良影响,不涉及道德伦理问题;

② 收集的数据是用户投入学习的时间的数据,不具有个人性的信息,不是敏感数据;

③ 对网站来说,不涉及数据库的架构、网站后台等其他关键点,对数据库安全无影响;

因此综合评估来说,风险性较低,可以考虑给出50%~100%的流量。

从实验周期来说,每天页面总流量是4万,需要的总流量约68万,50%流量持续时间是35天,100%流量需要18天,综合考虑选择曝光80%,持续时间22天的方案。

试验分析

合理性检查

Cookie****的数量

控制组页面总量:345543

实验组页面总量:344660

页面总量:69020

Cookie分布概率:0.5

SE = sqrt(0.5*(1-0.5)/( 345543+344660) ) = 0.000601

m = SE * 1.96 = 0.0011796

置信区间=[ 0.5-m, 0.5+m] = [0.4988, 0.5012]

观察值 = 344660 / 690203 = 0.5006

通过合理性检查

点击次数

控制组总量:28378

实验组总量:28325

总量:56703

Cookie分布概率:0.5

SE = sqrt(0.5*(1-0.5)/( 28378 +28325 )) = 0.0021

m = SE * 1.96 = 0.0041

置信区间=[ 0.5-m, 0.5+m] = [0.4959, 0.5041]

观察值 = 28378 / 56703 = 0.5005

通过合理性检查

点进概率

控制组概率:0.0821258

SE = sqrt( 0.0821258 * (1-0.0821258) / 344660 ) = 0.000468

m = SE * 1.96 = 0.00092

置信区间=[ 0.0821258-m, 0.0821258+m] = [0.0812, 0.0830]

观察值 = 0.0821824

通过合理性检查

结果分析

效应大小检验

总转化率:

Control控制组 Experiment实验组

Clicks点击 17293 17260

Enrolment登录 3785 3423

Gross conversion(总转化率) 0.2189 0.1983

Pooled Probability=(3785+3423)/ (17293+17260) = 0.2086

SE = sqrt(0.2086 * (1-0.2086) / (1/17293 + 1/17260 ) = 0.004372

m = SE * 1.96 = 0.008568

d = 3423/17260 - 3785/17293 = -0.02055

置信区间=[ -0.02055-m, -0.02055+m] = [ -0.0291, -0.0120

置信区间不包括0,具有统计显著性;

置信区间不包含d_min,具有实际显著性

净转化率:

Clicks点击 17293 17260

Payment付费 2033 1945

Gross conversion(总转化率) 0.1176 0.1127

Pooled Probability=(2033+1945)/ (17293+17260) = 0.1151

SE = sqrt ( 0.1151 * (1 - 0.1151) / (1/17293 + 1/17260) = 0.003434

m = SE * 1.96 = 0.006731

d = 1945/17260 - 2033/17293 = -0.004874

置信区间=[ -0.004874-m, -0.004874+m] = [ -0.01160, 0.001857 ]

置信区间包括0,不具有统计显著性;

置信区间包含d_min(+/- 0.0075),不具有实际显著性;

符合检查

① 总转化率

成功数量:4

试验次数:23

概率:0.5

双尾P值:0.0026

双尾P值0.0026 小于 alpha 水平0.025,具有统计显著性;

② 净转化率

成功数量:10

试验次数:23

概率:0.5

双尾P值:0.6776

双尾P值0.6776 大于 alpha 水平0.025,不具有统计显著性;

汇总

没有使用Bonferroni校正,因为本试验中的总转化率和净转化率不是独立的,是高度关联的,使用会使得实验结果过于保守;

建议

不建议启动试验;

因为总转化率具有统计和实际显著性,且值为负,这说明该试验会减少因没有5小时以上学习时间而离开免费试学的学生数量,这个符合试验预期。

但,净转化率的置信区间包含负数,置信区间的含义是”我们有95%的信心试验结果会落在这个区间“,根据此处的计算结果(-0.0116, 0.0019),说明有很大的概率净转化率会减少,并且有一定的概率净转化率的减少会超过实际显著性0.0075。因此我们无法说明”降低的程度不大“。

所以不建议启动。

后续试验

我自己本身在知道优达到报名还蛮久的,具体时间不记得了。当时看过官网的课程介绍,虽然被吸引,但因为没有任何基础,也会有一些纠结,直到我朋友报名学习告诉我说还可以,我才报名的。其实很建议官网放一个频道:学员心声,放往期优秀学员的通关心得和建议之类,会很有帮助。同时,很多时候学员会很担心学习过程遇到困难怎么办,能不能像其他学习社群那样,及时的有助教或者班主任在群里解答,这种即时一对一导师形式就比较好。

假设试验:

在试学的纳米课程的每个页面中,设置【一对一导师】,并且是即时的(设置每个人的专属导师,配置每个导师的上班时间),类似客服对话框(可显示在线和不在线),实现有问题随时联系导师。

假设和预期:

该功能的提供,可提高学员的付费率

度量选择

不变度量:

用户id的数量:该试验发生在用户点击试学且登录后,不影响登录用户数,因此选择作为不变度量;

评估度量:

留存率:试验会影响最终付费的用户数,因此选择留存率为评估指标;

转移单位:

① 用户id:此测试用户id会被跟踪,是合适的转移单位

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容