当时在货拉拉进行的许多AB试验中,存在部分针对细分场景或是分流粒度较粗的战略点评,这些试验中试验单元少,简单随机分流会导致试验与对照试验前误差(Pre-Experiment Bias)大。在货拉拉内部,“试验前误差”也被称为“同质性”。

试验不同质会导致点评的战略、功用收益与实在收益不一致,会导向错误的决议计划。因而,货拉拉数据科学团队提出了体系化的解决计划,用于确保试验的同质性,进而提升AB试验成果可靠性,最终助力达成正确的决议计划。图内展现的是业界实践常用的办法。

本文旨在介绍AB试验的进阶玩法——同质性确保,也会针对试验各生命周期(试验前、试验后)的详细场景,叙述技能细节和实操经历。

AB试验计算学根底:同质性确保解决计划

一、同质性确保背景

1.1 同质性界说

AB试验中提到的同质性指“试验中,试验组观测目标,假如没有干涉,与对照组观测目标的差异程度”(无法观测,因果推断领域称之为“反现实”);当差异不明显,则以为试验同质,当差异明显,则以为试验不同质。

AB试验计算学根底:同质性确保解决计划

1.2 同质性查验办法

针对不同的目标,需求运用不同的明显性判别办法,如下表所示:

目标类型 假设查验办法 界说 举例
比率型 z查验 Y‾=∑iYiNoverline{Y} = frac{sum_i Y_i }{N}YiY_i的取值为0或1 评价下单转化率、配对率
连续型 t查验 Y‾=∑iYiNoverline{Y} = frac{sum_i Y_i }{N}YiY_i的取值范围为[0, ∞[0, infty) 人均配对单量、额定配对单量、额定配对GTV
份额型 卡方查验 比率型目标的拓展方式,YiY_i有3种或以上离散取值 每个小时的履行单量占全天的份额

1.3 实际工作流程参阅

在实际工作的操作流程中首要分三步:

  1. 依据试验作用的环节,圈选前史上在平台有过对应行为的试验目标。
  2. 将圈选出的试验目标分为多组,令各组间前史目标差异满足小。
  3. 依据详细运用的同质性确保技能,以不同方式输出最优分组计划:在线AA测验、离线AA回溯输出最优随机种子或发现最优分组输出明细试验目标分组名单。

AB试验计算学根底:同质性确保解决计划

1.4 确保计划概览

  • “试验前”指试验开端前,同质性动作作用于模仿流量
  • “试验后”指试验开端后,包括试验进行中、试验结束后,同质性查验作用于实在流量
  • “旁边面目标”指不会被试验战略干涉的目标

AB试验计算学根底:同质性确保解决计划

二、同质性确保计划

2.1 试验前同质性确保

假如能正确地找到与中心目标最相关的目标和回溯周期,并确保两组前史目标差异XTm‾−XCm‾overline{X_T^m} – overline{X_C^m}满足小,那么AB试验的同质性(即“反现实差异”)就满足好。所以在试验开端之前,主张选用离线AA回溯发现最优分组技能,能够有用下降试验组与对照组试验目标之间的差异,来确保试验期间的同质性。

  1. 目标挑选

常见的目标类型有:比率型、连续型、份额型、中位数类。因而能够选取查验恣意目标确保同质性,主张优先中心观测目标, 一起需求留意多重查验问题,查验次数越多,越简单出假阳性。

  1. 确认回溯周期

确认回溯详细周期的办法:将前史数据切开为两段,榜首段前史数据用于寻找最优的回溯周期,长度不固定(其计算周期记为m);第二段前史数据与预估试验周期天数相同(其计算周期记为n)。关于榜首段前史数据中圈选到的试验目标,令其曩昔m天(榜首段前史数据周期)的目标与未来n天(第二段前史数据周期)目标的相关性最大。

  • 确认过程
  1. 确认实在的试验周期天数(即n的值);试验周期通常是确认的,或许有大致的范围,我们能够以为n是固定的,或许很少的几个枚举值。
  2. 关于或许的试验周期,测验不同前史回溯周期(即m的值),点评线性模型Ym=XnY^m = theta X^n拟合的好坏。
  3. 找到一个m,使得Ym=XnY^m = theta X^n拟合的成果最好(点评目标运用R^2),得到与未来n天目标最相关的前史m天目标;m即为最佳回溯周期。

由下文到付担保金试验分析可得:关于小车 评价 环节user_id分流试验,当试验周期为14天时,主张回溯曩昔35天数据。

AB试验计算学根底:同质性确保解决计划

2.2 试验后同质性确保

“前史目标差异大”并不代表试验不同质,同质性由前史目标差异大小试验前、后目标相关性一起决议。因而在试验上线之后,在面临试验前中心目标不同质的问题时,主张选用CUPED或DID等技能,能够定量衡量同质性好坏和校对同质性;在面临试验中旁边面目标不同质的问题时,主张选用异常值除掉,能够消除由于异常试验数据而带来的试验动摇。

  1. 目标挑选
  • 旁边面目标同质性

    • 判别中心:对不受试验战略影响的旁边面目标进行查验,验证组别之间的旁边面目标有无明显差异。一起留意本查验针对的是实在试验期间的数据,因而无需前史数据。

    • 事例展现:PK试验-供需同质性查验

      查验思路:

      • 依据每小时的日均履行单量单均推送司机数,判别试验组与对照组在供需层面是否同质
      • 供需同质性查验的目标属于份额类目标,因而运用卡方查验
    • AB试验计算学根底:同质性确保解决计划
      AB试验计算学根底:同质性确保解决计划

  1. 确认回溯周期

关于对照组试验目标,找到与实在试验N天目标最相关的试验前m天目标, 以此m作为目标回溯的周期。一起留意主张运用线性回归的R^2点评目标之间的相关程度;不同目标的最优回溯周期会不同,需求考虑目标的重要度进行取舍。

  1. 误差校对
  • 校对效果:

校对后的试验效果

=(YTn‾−YCn‾)−⋅(XTm‾−XCm‾)tau = (overline{Y_{T}^n} – overline{Y_C^n}) – theta cdot (overline{X_T^m} – overline{X_C^m})

YTn‾−YCn‾overline{Y_{T}^n} – overline{Y_C^n}是实在试验期间,试验组与对照目标的差异

XTm‾−XCm‾overline{X_T^m} – overline{X_C^m}是前史m天试验组与对照目标的差异

theta是试验前、中目标的系数

注1:DID办法便是令这儿的=1theta = 1

注2:CUPED技能能够使试验结论更明显

  • 校对留意点:

    • 试验需求附上原始数据成果
    • 陈说试验需求校对的原因(如同质性差异大)
    • 列明试验误差校对办法(如CUPED)的假设和风险
  • 异常值除掉

    • 适用场景:

      1. 实在试验期间,试验目标不受干涉的旁边面目标不同质
      2. 由于不需运用前史数据,因而适用于order_id、user_id、driver_id各种分流方式
    • 事例展现:分播单试验-订单金额同质性查验

      • 事例背景:
        1. 订单金额是不受分播单战略影响的目标,因而理论上试验与对照的订单金额分布应该相似
        2. 1万元以上订单呈现概率较低(1 / 20000),但其试验分组对中心目标GTV 配对率造成较大影响
      • 实际操作:异常值除掉:试验与对照组别离除掉订单金额 > 1万元的订单
  • CUPED / DID

    • 目标挑选

      • 主张仅校对“北极星目标”或“中心目标”
      • 在货拉拉,最关注的目标便是额定 配对GTV额定 配对单量

2.3 试验事例

  • 到付担保金试验

在用户进入订单确认页时(评价->订单确认页->下单),用户如挑选“到付”为付款方式,需求依据订单金额支付一定份额的金额才能够下单。因而将试验设计为:

分流方式 试验周期 中心目标 试验分组 试验战略
user_id分流 估计14天 额定配对GTV
额定配对单量
对照组(34%) 不收担保金
试验组1(33%) 10%担保金
试验组2(33%) 25%担保金

试验后离线分流查验同质性

人均配对单量 = 配对单量 / 评价用户数,等价于额定配对单量

人均配对GTV = 配对GTV / 评价用户数,等价于额定配对GTV

试验分组两两间的相对差异绝对值均 < 0.75%,均不明显,因而试验前同质性确保有用。

试验分组 中心目标相对差异
评价用户数(进组流量) 人均
配对单量
人均
配对GTV
人均
履行单量
估转率 配对率 到付配对率 到付单占比
试验组1 vs 对照组 0.68% -0.39% 0.55% 0.12% 0.13% 0.13% 0.69%
试验组2 vs 对照组 0.48% -0.69% 0.55% 0.06% -0.07% -0.41% -0.04%
试验组2 vs 试验组1 -0.20% -0.29% 0.00% -0.06% -0.20% -0.54% -0.72%

四、结语

目前的AB试验中关于同质性确保的处理首要挑选在试验前和试验上线后。因而在试验前主张选用离线AA回溯发现最优分组技能,下降试验组和对照组试验目标之间的差异,确保试验期间的同质性;在试验开端后依据目标的性质不同,挑选不同的解决计划:

  1. 试验后中心目标不同质时,主张选用CUPED或DID等技能,定量衡量同质性好坏和校对同质性
  2. 试验后旁边面目标不同质时,主张选用异常值除掉,消除异常值给试验数据带来的动摇