A/B试验概述

1 导言

本文首要共享A/B试验的相关概念。我将首要从以下几个方面临A/B试验进行共享:A/B试验的基本原理、试验流程、构用场景和常见问题等。

2 基本原理

A/B试验是一种常用的试验规划办法,本质是一种比照剖析办法。A/B试验归于试验范畴,经过对用户进行随机分组,依据单一变量的准则为每一组用户分配一个试验计划,在相同的时刻维度调查用户的反应以确认最佳计划。

以网页皮肤优化为例,原计划A中网页色彩为绿色,调整后的计划B网页色彩为黄色。为了确认用户对网页色彩的偏好,能够规划A/B试验,将特征类似的用户随机分成A、B两组,让其别离打开不同色彩的网页,调查两组用户的网页点击率。

A/B试验之所以能够在数据剖析范畴得到广泛使用,是因为它能够处理大多数关于挑选的问题,经过A/B试验挑选出来的计划大部分状况下会使得投入产出比最大化。总归,A/B试验能够辅佐业务方选出最优计划并在现有流量中获得更高的投入产出比。

  • 评估量划优劣,挑选最优计划

A/B试验的首要意图之一是判别两个计划中哪个更好,以辅佐运营人员挑选最优计划,到达最好的作用。以网页皮肤挑选为例,经过A/B试验确认用户对网页皮肤的偏好,以进步用户点击率,降低用户跳出率。

  • 核算ROI,进步收益

经过A/B试验挑选最优计划的终极意图仍是进步收益、量化收益,核算投入产出比(ROI)也是数据剖析师需求把握的技能。关于不同的计划而言,成本都是能够直接核算出来的;而关于收益,则需求核算试验组与对照组收益的差值。

3 试验流程

A/B试验是一个体系性的过程,以用户对网页皮肤的偏好挑选为例,其实施流程能够概括为以下7个过程:

  • 设定方针

进行A/B试验的第一步是确认比较方针,选取哪些方针进行比照需求依据试验的意图来决议。A/B试验中的方针能够分为三类,即中心方针、辅佐方针和反向方针,在进行A/B试验时主张一起挑选三类方针作为试验方针。

经过A/B试验确认用户对网页皮肤的偏好,就能够挑选点击率作为比较的中心方针。为了扫除同一个用户多次点击形成的核算误差,这儿将点击率的核算口径定为去重的点击人数与去重的页面访问人数的比值。

除中心方针外,也需求一些辅佐方针和反向方针。辅佐方针能够依据用户行为漏斗进行设定;也能够挑选重要的下游方针,如平均点击次数、下单成功率、复购率等;反向方针是或许对产品发生负面影响的方针,如回跳率、退货率、回撤率和使用删去率等。

  • 创立变量

选定方针之后,就需求进行变量的创立,即对网页的元素进行更改,将之前绿色的皮肤改为黄色的皮肤。这部分由前端配合完成。

  • 生成假定

有了变量之后,能够基于经历对试验成果做出假定。例如,能够假定用户更喜欢改版后的网页。

  • 确认分流(抽样)计划

怎么分配流量、分配多少流量关系到A/B试验的成败,尽管挑选同质性较高的用户,也便是各个维度特征较为类似的用户进行测验,一起需求确认分流份额和其他分流细节。

国内外很多开源网站都提供了A/B试验样本量核算器,evanmiller是其间的一种。只需输入现在大盘基准值、预期试验进步作用、置信度及成效等参数,即可核算出试验所需的样本值。现在大盘的基准值为41.68%,预期能够进步的比率为0.2%。假定估量不准,为了确保试验能够得到成果,此处可轻视,不可高估,也便是0.2%是预期能够进步的最小值。在95%的置信度、80%的成效下每一组所需的最小样本量为95.413810495.413810^4

假定预期的方针是与均值相关的方针,如人均时长、人均付费等方针,估算样本量或许会稍微复杂。这时分需求运用t查验反算样本量,但同样能够使用各类开源的网页东西进行核算,如字节跳动的DataTester、腾讯的A/B试验渠道及百度的峙一渠道。

  • 确认试验时长

试验时长也是A/B试验的重要环节,即这个A/B试验要持续多久。试验时长不宜过短,不然参与试验的用户简直都是活泼用户。试验时刻的长短和所需样本量是密切相关的,过程4中现已估算了所需样本量,因而问题转化成要到达95.4138万个试验样本需求多少天。现在渠道每天能为这个A/B试验项目分配10万MB的流量,要到达95.4138万个样本则至少需求10天,这样一来试验时长基本确认。

  • 收集数据

最后便是基于核算学基础理论,剖析数据成果,判别两个版别之间是否存在核算学上的明显性差异。

4 使用场景

A/B试验是一种广泛使用的试验办法,适用于许多范畴。以下是几个A/B试验的常见使用场景:

  1. 网页规划和用户体会优化:经过A/B试验,能够比较不同网页规划、布局、色彩、按钮位置等要素对用户行为和转化率的影响,然后优化用户体会和进步网站的作用。
  2. 营销和广告战略:A/B试验可用于比较不同广告案牍、图像、呈现方法、定位或促销战略的作用。例如,测验不同标题、呈现方法、优惠券等,以确认哪种战略对受众发生最佳影响。
  3. 产品功用和界面改善:A/B试验可协助确认产品功用的作用和用户偏好。经过比较不同功用的版别,能够了解用户对产品特性的偏好,并决议是否进行功用改善或调整。
  4. 电子商务和购物体会优化:经过A/B试验,能够比较不同购物页面规划、产品引荐战略、付款选项等对购物转化率的影响,以优化电子商务渠道的用户体会和销售作用。
  5. 移动使用开发和优化:A/B试验可用于比较不同移动使用界面、功用、通知推送等的作用,以改善用户留存率、转化率和用户满意度。
  6. 电子邮件营销优化:经过A/B试验,能够测验不同的电子邮件主题、内容、发送时刻等要素对打开率、点击率和转化率的影响,以进步电子邮件营销的作用。
  7. 交际媒体营销和广告:A/B试验能够用于比较不同交际媒体广告案牍、图像、呈现方法和定位等的作用,以优化交际媒体广告投进的作用和出资回报率。

5 常见问题

  • A/B试验常见的误区

参考答案

(1)疏忽核算学意义是A/B试验常见的误区之一,包含忽视假定查验、明显性水平以及核算成效。仍以网站皮肤优化为例,若A组的点击率是39.13%,B组的点击率仅为36.86%,是否能够直接说A组的作用优于B组,用户更喜欢A组的皮肤色彩呢?事实上,不能直接得出这个结论,因为缺少了关键过程——假定查验。假定查验的意图之一是扫除命运、抽样误差等随机要素对试验成果的误判,即一般所说的Ⅰ类过错;意图之二是扫除由于漏报关于试验成果的影响,即Ⅱ类过错。为了防止Ⅰ类过错、Ⅱ类过错带来的误判和漏报,需求对试验成果进行严格的假定查验,类似于留存率、浸透率等率值相关方针能够选用Z查验或卡方查验(非正态状况下),而人均时长、用户购买量等方针能够使用t查验。

(2)由于别致效应的存在,试验时长的挑选也需求注意。试验所需的样本量决议了试验的时刻长短,为了尽快得出结论是否能够分配较大流量使得试验尽快收集到所需样本量?或许按照正常的流量分配,到达样本量之后立即中止试验?

答案是否定的,面临以上两种状况需求考虑是否因为别致效应的存在给成果带来了必定的影响。在核算学上,别致效应也称为均值回归,即跟着试验次数的添加,成果往往趋近于均值。在A/B试验中,试验前期用户或许会因为新的改动而发生猎奇,然后带来点击率的进步,但是跟着试验时刻的添加,这个点击率会趋近于用户的真实点击水平。因而,需求比及观测方针平稳之后才能中止试验,以防止别致效用关于试验成果的影响。假定分配较大的流量在短时刻内收集够样本,除存在别致效应外,还或许受到周内效应的影响,即用户在周内、周末的行为习惯不一致形成试验误差;别的,还有或许存在以偏概全。

(3)A/B试验的中心是用户分群试验,关于用户的挑选以偏概全,只挑选高频用户也是常见的误区之一。在流量分配的时分需求确保对照组和试验组的用户具有一起性、同质性、均匀性和唯一性。换句话说便是需求将用户属性相近的用户一起分配到A组或B组中且一起进行试验。即使这样还会遇到一个问题,用户虽然大部分特征是类似的,但其活泼周期或许不尽相同,因而同样或许呈现以偏概全的误区。因而,试验时刻的挑选应该格外注意,切不可为了尽快获得试验成果而分配大量流量,需求考虑到用户集体的全覆盖,这个能够结合样本量估算以及用户丢失周期等进行考虑。

(4)辛普森悖论也是A/B试验中常见的现象,即在试验过程中流量切割份额改动,然后形成成果过错。辛普森悖论是指在某个条件下的两组数据,别离评论时都会满足某种性质,可是一旦兼并考虑,却或许导致相反的结论。

(5)多个试验一起进行时,怎么规划A/B试验也会存在必定的误区。针对多个试验一起进行,咱们能够经过规划正交试验,处理多个试验一起进行时流量分配的问题。

  • 什么是正交试验?

参考答案

数据剖析师经常会遇到多个活动一起进行A/B试验的状况,那么这个时分你会考虑一个问题——他人的试验是否会影响到自己正在进行的试验?假定情人节期间展开了一系列的活动,各个活动都在经过A/B试验测验活动作用。老板必定想知道每个活动的作用怎么?所有活动的叠加作用又怎么?

A/B试验的正交试验能够处理你的疑问,也能够处理老板的疑问。在规划正交试验时需求严格遵守两个准则,即正交和互斥。

(1)正交。流量正交能够让业务关联度小的试验有满足的流量一起进行,完成流量的高可用性。正交一般状况下是关于不同试验层来说的,将上一层的流量随机打散到下一场的试验中,使得用户再进入其他试验时时均匀分布的,而不是集中在某一块区域。

(2)互斥。流量互斥能够让关联度较大的试验分开进行,防止相互影响,然后确保成果的可信度。流量互斥一般状况下是对同一试验层来说的,在同一试验层的几个战略中同一用户只能进入一个试验测量中。很多状况下,活动全体的作用并不等于各个子活动叠加作用,有时分子活动之间有着相互扩大的作用,使得1+1>2;而有的时分,子活动在本质上是相同的工作,然后使得1+1<2。

因而,要量化一个活动的全体作用时,就需求一个贯穿所有活动的对照组,在A/B试验体系中称为贯穿层。与贯穿层相对应的便是试验层,试验层又能够依据活动需求分为不同的子试验层。

A/B试验概述

按照上述的结构进行试验规划,虽然试验B1层的流量被复用到试验B2层,也就相当于把B1层的试验作用带到了B2层,但是流量是正交的,即B1层的试验作用随机均匀打散分配到B2层,所以B1层的试验作用对B2层的每一个试验战略的影响都是均衡的,全体上来看他人的试验并不会影响到自己的试验作用。

  • 什么是最小预期进步(MDE)?

参考答案

最小预期进步,亦指最小检测效应(Minimum Detectable Effect,MDE)。在进行A/B试验之前,需求有一个心思预期,例如,当试验组比对照组至少进步3%的作用时,才以为试验组的计划有实际价值,若没有到达预期进步,即使核算查验时明显的,试验组的计划也不值得被采纳。MDE的巨细对样本量核算和试验规划至关重要,假定MDE设置的过小,样本量或许会很大,导致贵重和耗时的试验。假定MDE设置的过大,或许无法检测到较小的但仍具有实际意义的效应。一般,确认MDE的巨细需求综合考虑多个要素,包含业务方针、可行性、预期效应巨细、核算成效和明显性水平等。较大的MDE或许需求更小的样本量,但或许会错失较小但仍重要的效应。较小的MDE或许需求更大的样本量,但能够更准确地检测到较小的效应。

  • 怎么衡量试验作用?

参考答案

A/B试验的作用能够经过P值、效应值、最小检测效应来衡量。

(1)明显性水平(1-)和P值。 明显性水平(Significance Level)和P值是判别试验成果是否具有核算明显性的重要方针。明显性水平将犯Ⅰ类过错的概率控制在一给定的水平下,这个水平便是明显性水平,在此基础上使犯第Ⅱ类过错的概率尽或许小。P值在核算学中用来衡量两样本由随机抽样误差,即犯Ⅰ类过错而发生的差异,只需P值满足小,小到能够疏忽,就能够以为两样本之间的差异并不是由抽样误差引起的,而是样本本身就存在的差异。

(2)效应量。 效应量(Effect Size)又称为效应值,也是判别试验成果的一个方针之一,假定试验成果的P值在置信水平下明显,但效应量小,咱们仍有理由确定试验成果是不明显的。A/B试验中效应量是指对照组和试验组之间的差异巨细。效应量不依赖于样本容量,也不依赖于测量尺度,正负号仅表明效应的方向,其绝对值才反映实际效应的巨细,效应量越大,差异越大。

例如,Cohen’s d是核算组间均值差异的常用效应量,核算该效应量需求两组参数即两组均值及兼并标准差,其核算公式如下所示:

d=均值差异标准差=A组均值−B组均值兼并标准差=1−2pool=1−2(n1−1)s12+(n2−1)s22n1+n2−2d=\frac{均值差异}{标准差}=\frac{A组均值-B组均值}{兼并标准差}=\frac{\mu_1-\mu_2}{\delta_{pool}}=\frac{\mu_1-\mu_2}{\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}}

(3)最小检测效应。 最小检测效应(Minimum Detectable Effect, MDE),也称为检测灵敏度,它与样本容量、样本标准差、犯Ⅰ类过错和Ⅱ类过错有关。Z查验和t查验最小检测效应MDE的核算方法有所不同。

其间,Z查验的MDE核算公式如下所示:

MDE=(Z2+Z)A2nA+B2nBMDE=(Z_{\frac{\alpha}{2}}+Z_{\beta})\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}

t查验的MDE核算公式如下所示:

MDE=(t+t)A2nA+B2nBMDE=(t_{\alpha}+t_{\beta})\sqrt{\frac{\sigma_A^2}{n_A}+\frac{\sigma_B^2}{n_B}}

  • A/B试验中常见的两类过错

在A/B试验中一般会关注两种类型的过错,即第一类过错和第二类过错。第一类过错,也称为过错或假阳性(Type I Error),发生在当实际上不存在明显差异时,咱们过错地拒绝了原假定。换句话说,咱们过错地得出结论以为两个或多个变体之间存在明显差异,但实际上差异并不存在。第一类过错一般以明显性水平(significance level)来度量,一般设置为0.05或0.01。第二类过错,也称为过错或假阴性(Type II Error),发生在当实际上存在明显差异时,咱们过错地接受了原假定。换句话说,咱们未能检测到两个或多个变体之间的明显差异,而实际上差异是存在的。第二类过错一般以核算成效(statistical power)1-来度量,其间表明第二类过错的概率。区别这两类过错非常重要,第一类过错或许导致过错的决策,以为某个变体比另一个更好或更有效,而实际上并非如此。第二类过错或许导致错失了重要的差异,没有发现实际上存在的优势或改善。

参考资料

[1] 李渝方. (2022). 数据剖析之道:用数据思想指导业务实战. 电子工业出版社.

[2] 小天使1092. (2021). 正交试验 [Blog post]. 小天使1092的博客. 检索自 zhuanlan.zhihu.com/p/400813559.

[3] Nemo. (2020). 做AB试验该选多少样本量? [Blog post]. Nemo的博客. 检索自 zhuanlan.zhihu.com/p/148760397.

[4] 稀饭居然不在家. (2022). ABtest面试常见问题收拾 [Blog post]. 稀饭居然不在家的博客. 检索自 www.modb.pro/db/557277