当时在货拉拉进行的许多AB试验中,存在部分针对细分场景或是分流粒度较粗的战略点评,这些试验中试验单元少,简单随机分流会导致试验与对照的试验前误差(Pre-Experiment Bias)大。在货拉拉内部,“试验前误差”也被称为“同质性”。
试验不同质会导致点评的战略、功用收益与实在收益不一致,会导向错误的决议计划。因而,货拉拉数据科学团队提出了体系化的解决计划,用于确保试验的同质性,进而提升AB试验成果可靠性,最终助力达成正确的决议计划。图内展现的是业界实践常用的办法。
本文旨在介绍AB试验的进阶玩法——同质性确保,也会针对试验各生命周期(试验前、试验后)的详细场景,叙述技能细节和实操经历。
一、同质性确保背景
1.1 同质性界说
AB试验中提到的同质性指“试验中,试验组观测目标,假如没有干涉,与对照组观测目标的差异程度”(无法观测,因果推断领域称之为“反现实”);当差异不明显,则以为试验同质,当差异明显,则以为试验不同质。
1.2 同质性查验办法
针对不同的目标,需求运用不同的明显性判别办法,如下表所示:
目标类型 | 假设查验办法 | 界说 | 举例 |
---|---|---|---|
比率型 | z查验 | Y‾=∑iYiNoverline{Y} = frac{sum_i Y_i }{N},YiY_i的取值为0或1 | 评价下单转化率、配对率 |
连续型 | t查验 | Y‾=∑iYiNoverline{Y} = frac{sum_i Y_i }{N},YiY_i的取值范围为[0, ∞[0, infty) | 人均配对单量、额定配对单量、额定配对GTV |
份额型 | 卡方查验 | 比率型目标的拓展方式,YiY_i有3种或以上离散取值 | 每个小时的履行单量占全天的份额 |
1.3 实际工作流程参阅
在实际工作的操作流程中首要分三步:
- 依据试验作用的环节,圈选前史上在平台有过对应行为的试验目标。
- 将圈选出的试验目标分为多组,令各组间前史目标差异满足小。
- 依据详细运用的同质性确保技能,以不同方式输出最优分组计划:在线AA测验、离线AA回溯输出最优随机种子或发现最优分组输出明细试验目标分组名单。
1.4 确保计划概览
- “试验前”指试验开端前,同质性动作作用于模仿流量
- “试验后”指试验开端后,包括试验进行中、试验结束后,同质性查验作用于实在流量
- “旁边面目标”指不会被试验战略干涉的目标
二、同质性确保计划
2.1 试验前同质性确保
假如能正确地找到与中心目标最相关的目标和回溯周期,并确保两组前史目标差异XTm‾−XCm‾overline{X_T^m} – overline{X_C^m}满足小,那么AB试验的同质性(即“反现实差异”)就满足好。所以在试验开端之前,主张选用离线AA回溯或发现最优分组技能,能够有用下降试验组与对照组试验目标之间的差异,来确保试验期间的同质性。
- 目标挑选
常见的目标类型有:比率型、连续型、份额型、中位数类。因而能够选取查验恣意目标确保同质性,主张优先中心观测目标, 一起需求留意多重查验问题,查验次数越多,越简单出假阳性。
- 确认回溯周期
确认回溯详细周期的办法:将前史数据切开为两段,榜首段前史数据用于寻找最优的回溯周期,长度不固定(其计算周期记为m);第二段前史数据与预估试验周期天数相同(其计算周期记为n)。关于榜首段前史数据中圈选到的试验目标,令其曩昔m天(榜首段前史数据周期)的目标与未来n天(第二段前史数据周期)目标的相关性最大。
- 确认过程
- 确认实在的试验周期天数(即n的值);试验周期通常是确认的,或许有大致的范围,我们能够以为n是固定的,或许很少的几个枚举值。
- 关于或许的试验周期,测验不同前史回溯周期(即m的值),点评线性模型Ym=XnY^m = theta X^n拟合的好坏。
- 找到一个m,使得Ym=XnY^m = theta X^n拟合的成果最好(点评目标运用R^2),得到与未来n天目标最相关的前史m天目标;m即为最佳回溯周期。
由下文到付担保金试验分析可得:关于小车 评价 环节user_id分流试验,当试验周期为14天时,主张回溯曩昔35天数据。
2.2 试验后同质性确保
“前史目标差异大”并不代表试验不同质,同质性由前史目标差异大小和试验前、后目标相关性一起决议。因而在试验上线之后,在面临试验前中心目标不同质的问题时,主张选用CUPED或DID等技能,能够定量衡量同质性好坏和校对同质性;在面临试验中旁边面目标不同质的问题时,主张选用异常值除掉,能够消除由于异常试验数据而带来的试验动摇。
- 目标挑选
-
旁边面目标同质性
-
判别中心:对不受试验战略影响的旁边面目标进行查验,验证组别之间的旁边面目标有无明显差异。一起留意本查验针对的是实在试验期间的数据,因而无需前史数据。
-
事例展现:PK试验-供需同质性查验
查验思路:
- 依据每小时的日均履行单量、单均推送司机数,判别试验组与对照组在供需层面是否同质
- 供需同质性查验的目标属于份额类目标,因而运用卡方查验
-
-
- 确认回溯周期
关于对照组试验目标,找到与实在试验N天目标最相关的试验前m天目标, 以此m作为目标回溯的周期。一起留意主张运用线性回归的R^2点评目标之间的相关程度;不同目标的最优回溯周期会不同,需求考虑目标的重要度进行取舍。
- 误差校对
- 校对效果:
校对后的试验效果
=(YTn‾−YCn‾)−⋅(XTm‾−XCm‾)tau = (overline{Y_{T}^n} – overline{Y_C^n}) – theta cdot (overline{X_T^m} – overline{X_C^m})
YTn‾−YCn‾overline{Y_{T}^n} – overline{Y_C^n}是实在试验期间,试验组与对照目标的差异
XTm‾−XCm‾overline{X_T^m} – overline{X_C^m}是前史m天试验组与对照目标的差异
theta是试验前、中目标的系数
注1:DID办法便是令这儿的=1theta = 1
注2:CUPED技能能够使试验结论更明显
-
校对留意点:
- 试验需求附上原始数据成果
- 陈说试验需求校对的原因(如同质性差异大)
- 列明试验误差校对办法(如CUPED)的假设和风险
-
异常值除掉
-
适用场景:
- 实在试验期间,试验目标不受干涉的旁边面目标不同质
- 由于不需运用前史数据,因而适用于order_id、user_id、driver_id各种分流方式
-
事例展现:分播单试验-订单金额同质性查验
- 事例背景:
- 订单金额是不受分播单战略影响的目标,因而理论上试验与对照的订单金额分布应该相似
- 1万元以上订单呈现概率较低(1 / 20000),但其试验分组对中心目标GTV 配对率造成较大影响
- 实际操作:异常值除掉:试验与对照组别离除掉订单金额 > 1万元的订单
- 事例背景:
-
-
CUPED / DID
-
目标挑选
- 主张仅校对“北极星目标”或“中心目标”
- 在货拉拉,最关注的目标便是额定 配对GTV和额定 配对单量
-
2.3 试验事例
- 到付担保金试验
在用户进入订单确认页时(评价->订单确认页->下单),用户如挑选“到付”为付款方式,需求依据订单金额支付一定份额的金额才能够下单。因而将试验设计为:
分流方式 | 试验周期 | 中心目标 | 试验分组 | 试验战略 |
---|---|---|---|---|
user_id分流 | 估计14天 | 额定配对GTV 额定配对单量 |
对照组(34%) | 不收担保金 |
试验组1(33%) | 10%担保金 | |||
试验组2(33%) | 25%担保金 |
试验后离线分流查验同质性
人均配对单量 = 配对单量 / 评价用户数,等价于额定配对单量
人均配对GTV = 配对GTV / 评价用户数,等价于额定配对GTV
试验分组两两间的相对差异绝对值均 < 0.75%,均不明显,因而试验前同质性确保有用。
试验分组 | 中心目标相对差异 | |||||||
---|---|---|---|---|---|---|---|---|
评价用户数(进组流量) | 人均 配对单量 |
人均 配对GTV |
人均 履行单量 |
估转率 | 配对率 | 到付配对率 | 到付单占比 | |
试验组1 vs 对照组 | – | 0.68% | -0.39% | 0.55% | 0.12% | 0.13% | 0.13% | 0.69% |
试验组2 vs 对照组 | – | 0.48% | -0.69% | 0.55% | 0.06% | -0.07% | -0.41% | -0.04% |
试验组2 vs 试验组1 | – | -0.20% | -0.29% | 0.00% | -0.06% | -0.20% | -0.54% | -0.72% |
四、结语
目前的AB试验中关于同质性确保的处理首要挑选在试验前和试验上线后。因而在试验前主张选用离线AA回溯或发现最优分组技能,下降试验组和对照组试验目标之间的差异,确保试验期间的同质性;在试验开端后依据目标的性质不同,挑选不同的解决计划:
- 试验后中心目标不同质时,主张选用CUPED或DID等技能,定量衡量同质性好坏和校对同质性
- 试验后旁边面目标不同质时,主张选用异常值除掉,消除异常值给试验数据带来的动摇