A/B Test(一)

AB测试介绍

什么是AB测试?

A/B Test 是一个用于在线测试的常规方法,用于测试新产品或新功能。

如何操作

我们需要设置两组用户,一组设置为对照组,采用已有的产品或功能,另一组为实验组,采用新版产品或功能。
然后,找到上述两组用户做出的不同响应,确认哪个版本的功能更好。

A/B Test 适用情况

存在明确的对照组和实验组,能够选择合适的指标评估此类改变,适合使用A/B Test。

  1. 我们可以通过A/B Test 对很大范围的事情进行测试,比如增加一些新功能,或界面中增加的内容,网站的不同外观等。
  2. 我们还可以将A/B Test用于十分复杂的改变,例如排名变动。
  3. 我们也可以针对不确定用户是否会注意到的改变进行测试,例如页面加载时间。

A/B Test 案例如下:

  1. Amazon首次开始做个性化推荐时,他们想看一下用户是否真的会购买更多商品,他们发现,由于个性化推荐,他们的收益有了显著增加。

  2. Linkedin测试了一个改变,尝试确定他们是否应显示新文章还是鼓励大家增加新联系人,这就是排名变动。

  3. 100ms的页面加载时间不是很多,但是 Google 和 Amazon 都运行了测试。Amazon 在2007年证实,每个页面增加 100ms 的延时,会导致收入降低 1%。对于Google,也得到了相似的结果。 你可以发现,平均来看,100ms 看起来并不多,但每增加 100ms 的延迟,人们查询的数量真的降低了。

这就是可以从 A/B Test中学到的东西。

A/B Test 不适用的情况

  1. A/B Test 无法真实的告诉你是否遗漏了什么东西。
    例如:亚马逊想知道页面上是否有用户需要,但是他们还没有提供的商品。这种情况没办法用 A/B Test 来寻找答案。
  2. A/B Test 不适用与测试新的体验。
    例如:某 SaaS 公司已经有了免费服务,例如有待办事项列表。他们想提供带有其他功能的高级服务,如需使用高级服务,用户需要升级,创建登录账户,并探索新的功能。
    这种情况下,也不适合用 A/B Test 来寻找答案。
  3. A/B 不适用与需要很长时间才能验证的测试。
    例如:某租房网站,想测试促进用户推荐页面给好友有没有效果,但是这个效果检验需要很长时间,可能是一周,可能是半年,一年。因为租房并不是经常发生的。这种情况也不适合。

另外,当你测试新的体验时,你当前已有的那些用户,可能会觉得改变了他们的体验,这被称为改变厌恶症;
另一种情况是,他们觉得这些都是新的,然后尝试所有东西,这被称为新奇效应。

对于不适用情况,补充技术

用户在你的网站上进行操作的日志,可以通过检查或观察分析日志,得出结论,是什么原因造成其行为的改变。
然后可能要沿着这个方向努力,然后设计实验,完成随机化和试验,进行前瞻性分析。

可以把两种技术结合来使用:
查看操作日志得出假设,运行A/B Test验证你的理论是否合理。

还有一些其他技术:

  1. 用户体验研究
  2. 焦点小组
  3. 调查
  4. 人为评价

A/B Test 可以给我们大量宽泛的定量数据,而上述技术可以给我们非常深入的定性数据作为A/B Test 的补充。

这些技术可以告诉我们该爬哪座山,也就是得出假设。

设计A/B 测试

在网络世界中,当你做 A/B 测试时,要谨记的一件事是,确定用户是否会喜欢这个新产品或新功能;
所以在进行 A/B 测试时,你的目标是设计一个合理且能够给到你可复验的结果,让你能够很好地决定是否要发布一款产品或功能。

A/B 测试的方法

一般来说,在科学领域,假设检验是确定创新的关键方法。
在A/B测试中,我们最想看到的是对照组和实验组返回一致的响应,让你能真正地决定试验的结构,确定实验组和对照组是否有很明显的行为改变。

选择和测量指标

指标的作用

选择一个或多个指标是因为我们需要,明确如何判断实验组比对照组的好坏。

在决定如何定义指标之前,我们要考虑会用这些指标来做什么。
有两种指标:

  1. 不变指标
  2. 评估指标

不变指标

用于不变量检查:这些指标在实验组和对照组中都不会更改。

例如:

  1. 如果运行一个实验组和一个对照组,对比项目总体是否相同。例如两组中用户数量是否相同;分布是否相同;是否具有可比较的各个国家的用户数量;或各个语言的用户数量;
  2. 目的:需要进行这些完整性检查,确保实验能够顺利实施。
  3. 通过这些不变指标,我们可以看到实验是否受到其他非需要因素的影响,是否会对于我们判断结果造成影响。

评估指标

用来评估实验效果的指标。通过该指标,比较实验组和对照组是否存在显著性差异,从而判断新功能是否最终被采纳。

如何对指标进行定义?

  1. 要为一个指标想出一个高级概念,也就是一句话总结,让每个人都能理解这个指标。例如“活跃用户”或“点击概率”。
  2. 确定各个细节。例如你想测定活跃用户,那你如何定义活跃?哪些事件可以算为活跃?
  3. 进行单独数据测量之后,你需要将它们总结为一个指标,有点像概括或计数,可能是一个平均值,中位数等
  4. 总结后,就得到了一个完整的指标定义,可以进行完整性检验。
  5. 最后使用一个指标时,需要考虑这个指标是否普遍适用
  6. 对于评估指标,可以没有那么完美,但是适用于整套测试,能够用来对比;

困难指标

  1. 不能直接访问他们想要的数据,不知道怎么计算;
  2. 需要太长时间

需要避免。

指标定义

定义 1(Cookie 概率):对于每个 <时间间隔>,点击的 Cookie 数量除以 Cookie 总数
定义 2(网页流量概率):<时间间隔> 内点击的网页浏览量除以网页浏览量总数
定义 3(比例):点击数除以网页浏览量总数

关于数据采集和指标定义:

  1. 在进行差异性计算之前,我们需要先弄清楚,数据采集和指标定义有没有问题;
  2. 需要将定义标准化
  3. 由于收集数据的技术很多,所以要确认使用了什么技术

需要考虑指标的敏感性和稳健性

敏感性和稳健性

  1. 能够捕捉到你所关心的更改的指标,这就是稳健性的概念。当不发生任何有趣的事情时,它不会发生太大改变
  2. 如何测量敏感性和稳健性?
    1. 使用实验或使用你已经有的实验;
      例如,在视频延迟示例中,我们可以实施一些简单的实验,我们可以提高视频的质量,在理论上,我们可以增加用户加载时间,我们可以看看你感兴趣的指标是否对这种情况做出响应
    2. 也可以使用A/A实验,看它们是否太敏感
      1. 在这个实验中,你不需要改变任何指标,只将能看到相同信息的人们进行比较,看看你的指标是否显示两者之间的差别
      2. 通过这个关键元素,你可以确保不会将一些实际上没有任何意义的东西认为是重要的
    3. 对你记录的回顾性分析
      1. 如果你没有数据,或做不了新的实验,回头看看你对你的网站做过的更改,看看你感兴趣的这些指标是否和这些更改一同发生了变化;
      2. 或者你可以只看指标历史,看看你是否能够找出主要更改的原因

如何计算指标差异性

我们需要弄清楚,是客观因素导致指标有了变化,还是改变以后让指标有了变化。例如,学习平台节假日流量会增加。

为了更严谨,我们需要为指标计算置信区间。

  1. 需要了解其分布情况
  2. 需要了解指标的方差和标准偏差

对于二项分布

  1. 标准偏差SE = sqrt(β(1-β)/ N)
  2. 置信区间宽度(误差范围)m = z*SE
  3. N越大,越趋近于正态分布

案例

对于你选择作为评估指标的每个度量,假设有5000个cookie样本访问课程概述页面的情况下,分析估计一下其标准偏差(保留4位小数)
(注:请确保搞清楚每个对应5000次页面浏览的度量需要多少分析单位。)

基准值如下:

指标 基准值
每天访问课程概述页面的独立cookie 40000
每天点击“开始试用”的独立cookie 3200
报名参加免费试用的用户数量 660
点进概率 0.08
总转化率 0.20625
留存率 0.53
净转化率 0.1093125

从上面的表格可以看出,点进概率为0.08

故5000个样本的中,每天点击“开始试用”的独立cookie为 $50000.08 = 400.0 , 5000660/40000 = 82.5 $

则总转化率的标准偏差为:
$\sqrt{(0.2063*(1-0.2063)/400)} = 0.0202324189112424 $

净转化率的标准偏差为:
$\sqrt{(0.1093*(1-0.1093)/400)} = 0.0156007620006204 $

留存率的标准偏差为:
$\sqrt{(0.53*0.47/82.5)} = 0.0549490121785091 $

计算经验方差

分析变异性和经验变异性匹配的条件是 unit of analysis = unit of diversion。(分析单元 = 转移单元)

例如参照上述数据:

  1. 总转化率的分析单位是cookie,转移单位也是cookie,故总转化率的分析变异性和经验变异性匹配;
  2. 净转化率的分析单位是cookie,转移单位也是cookie,故净转化率的分析变异性和经验变异性也匹配;
  3. 留存率的分析单位是user-id,转移单位是cookie,故留存率的分析变异性和经验变异性不匹配,根据经验计算的变异性可能会远大于分析变异性。在这种情况下,应该为留存率收集变异的经验估计。

如果分析单元和转移单元不相等的情况下,在条件允许的情况下,我们可以为指标收集变异的经验估计。

经验方差的计算方法:

  1. 使用A/A实验
    1. 一个对照组A对比另外一个对照组A,实际上用户看到的东西是没有什么改变的,意味着你观察到的所有差异,都是潜在的差异性
    2. 可以使用A/A实验实际测试指标的敏感性和合理性,如果在A/A实验中,指标的差异性较大,可能在A/B测试时,敏感性太高
    3. 所以可以用A/A实验来测试差异性
    4. 运行更多的A/A测试,会有明显的边际效益递减
    5. 一个关键的经验法则就是:标准偏差与样本量的平方根成正比
  2. 做一个规模很大的A/A实验,在统计学中有种方法叫 bootstrap(自助法),你可以将很多的样本随机地划分为一堆小样本群,然后可以对这些随机地子集进行对比

计算经验分布的好处:

  1. 健全性检查

    1. 如果你已经对置信区间完成的分析计算,你可以检查A/A测试结果是否符合你的预期,这是一种完整性检查功能
    2. 如果你检查出不符合你的预期,表明你的计算出了错,可能你对数据分布的假设是无效的
  2. 计算置信区间

    1. 如果你想要对指标分布进行假设,但是不能分析估计方差,你可以通过实证预计方差,然后用你关于分布的假设,按照之前的方式计算置信区间
    2. 如果你不想对数据做出任何假设,你可以直接从A/A测试的结果中估计置信区间
    3. 假设置信区间为95%,实际有40组值,这去掉最小值和最大值,所得的范围即为置信区间

未完待续,请查看下一篇。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,710评论 4 376
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,839评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,295评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,776评论 0 223
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,198评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,074评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,200评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,986评论 0 214
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,733评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,877评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,348评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,675评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,393评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,209评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,212评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,003评论 2 280

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,112评论 18 139
  • 小猪威利系列里面有一本叫小威利闹别扭,大意是小威利一早从起床开始就闹别扭,莫名的不想吃饭,不想刷牙洗澡,不要去超市...
    杂粮粥阅读 125评论 0 0
  • 大爱必大贵,付出必杰出。这句话是赞美我校部分学生家长的,更是预言由这些家长影响下的孩子们。有人说“教育就...
    杨蕾001阅读 397评论 0 0
  • 前段时间Facebook COO 雪莉·桑德伯格丈夫突然去世的消息备受关注,同时也把雪莉·桑德伯格这个人物推上舆论...
    sindla阅读 536评论 0 1
  • 一次网上的闲逛,让一位少女浏览了一位写手的照片。照片里,有充满诗情画意的良辰美景,有像丁香一样撑着一把花纸伞的女孩...
    格子_阅读 320评论 0 0