通过5个步骤，掌握AB实验基本流程｜数据小匠人

AB实验本质上说有两个亮点功能：

1 获取数据
2 排除随机干扰变量。

例如：你需要决定是不是要采取降价促销的策略，你又没有数据，那么你可以先小范围进行ab实验测试收集数据，再做决策。再比如：当你通过历史数据分析了新用户更喜欢买高档商品，但是永远无法排除其他干扰变量的影响的时候，可以设计一个随机对照实验，获取主动的数据进行剔除潜在隐藏变量。

定义评价指标

为了测量实验干预带来的影响，我们首先需要定义目标指标，也称为评价指标。例如：评价环境污染程度的PM2.5 指标

举个例子：有一个实验是这样的，随着酒店业淡季的到来，有AB两批酒店，A类酒店降价10%，B类酒店不降价。然后为了评价降价实验的影响。我们应该选择哪个指标作为评价指标呢？有人说显而易见是销售额，请注意，即便想要提高的是销售总额，也不建议将销售总额作为指标，因为有可能销售额提升了，总利润却没有任何变化，最后白忙活一场。因为酒店本身还有一些维护成本（毛巾，洗漱用品，清洁阿姨），所以我们还是推荐毛利额作为评价指标

设计实验

确定评价指标之后，就可以开始设计实验了。接下来将通过回答以下4个问题来完成实验设计

1 随机化单元是什么？

选择随机化单元时要考虑的一个维度是颗粒度，例如：酒店降价促销，颗粒度选择是酒店，将满足条件的酒店随机分成AB组。而不是用户，如果某用户第一次看到酒店的价格是800元一晚，第二次用家人账号看到酒店的价格是400元一晚，用户体验是相当糟糕的。
选择随机化单元考虑的主要问题是：用户体验的一致性。所以大多数情况下，都是以用户为分桶。

2 我们的目标群体是什么？

以一个特定的群体为目标意味着你只想对具有某一特征的用户运行实验。例如，要检测某款教育app发现页的改版效果，需要将新用户设定为目标群体。因为老用户会直接进入已经购买的课程进行学习，只有新用户还没有购买课程，所以需要去发现页探索新知。

3 实验需要的样本量是多少？

原则上说实验样本量越大越好：实验的样本量大小是直接影响结果精确度的因素，样本量越大，结论越精确。如果检测出很小的变化，且需要有充足的理由对结论更有信心，那么就要运行一个更多样本量的实验。现实情况是样本量越大风险越大：实验一般是带有未知的干预措施(例如降价促销)往往这个未知措施是具有一定的风险，样本量越大，风险越大。一般我们有一个样本量的下限，也就是最小样本量，后面会单独写一篇文章来介绍最小样本计算的统计原理。

4 实验需要运行多久？

实验需要运行多久：需要考量的是周期性和季节性，初始和新奇效应，为了保证实验有效性在不会随时间变量而产生变化，我们一般会将实验时间覆盖不同特征的时间范围或者在不同时间特征下进行实验。例如：酒店行业，周末入住率高于周中（周末刚性需求），所以周末降价效果不好。如果降价促销实验仅仅在周中进行，是不能代表周末也会产生同样的效果。（一般也叫周内效应）；另外酒店行业容易受突发事件的影响，例如演唱会，大型国家考试酒店用户就会蜂拥而至，实验设计也需要考虑这种季节性影响。初始和新奇效应：酒店行业降价促销，对于线下到店的用户，其实并不是奔着降价去的，因为他来到店之前是不知道降价的。当他看到降价之后，下次会记住这个酒店每个周三会降价促销，这时候才会影响用决策，所以实验时长是需要考虑这个用户接受过程。

运行实验获取数据

实验上线的第一天：数据分析师需要做的事情就是验证实验是否正常运行，因为这里面会有各个环节的协助，如果某个环节出现了问题，后面收集的数据都是无效的，结论更加是误导，损失惨重。举几个极端且真实发生的例子：某个ab实验，将实验组和对照组的干预搞反了，得出了完全相反的实验结论。

例如：酒店降价促销实验上线，分析师需要去携程app上看下这家酒店的价格是不是降下来了，而对照组的酒店价格是不是按照计划保持不变。曾经出一个价格策略实验的时候，我就拿出自己在这家酒店的订单截图来佐证这个过程（当然携程酒店订单是可以退款的），或者说论证数据的有效性。

在toC的互联网公司的时候，一般会把自己的用户id塞进对照组，把傍边同事的用户id塞进实验组，实验上线第一天就是check效果展示，这样出来的数据心里才踏实。当然，我们也会考虑加入其他变量来进一步佐证，例如：酒店降价的实验，可以加入ARR(平均房价)来验证是否真的降价了。

分析结果

首先，观察两个对照组的p值都小于0.05，我们拒绝实验组和对照组有相同均值的零假设（即实验结果数据是有干预导致的，不是随机偶然性导致的）。

然后，观察，实验组和对照组之间的差距，也就是干预结果（降价促销）带来的效益是正向还是负向，如果是正向，正向值是多少，是否值得进一步扩大到全量。

实验结果支持决策

运行AB实验的目标是收集数据以驱动决策，所以这一步是至关重要的。例如：产品功能发布还是不发布的决策，酒店降价促销还是不降价的决策。那么ab实验数据支持的决策需要考虑哪些因素呢？

1 结果是否真实可信（统计显著）
2 如果统计显著，那么差异是否显著。（评价指标改变是否大）例如：上面酒店实验数据，实验组和对照差异是80元/天，有时候，我们可以估算80*365估算出一年的经济效益。
3 如果统计显著，评价指标改变也很大，那么这个决策需要投入哪些成本，是否值得。（ROI怎么样）
4 最后还需要考虑，实验放量之后会带来哪些风险，以及风险处理预备方案是什么？（风险控制）

本文通过定义实验指标，设计实验，运行并获取数据，分析数据，数据决策五个步骤阐述了ab实验设计的基本流程，有一些概念只是简单的叙述，没有进行深入的讨论，欢迎评论区留言反馈；

本文经授权发布，不代表增长黑客立场，如若转载，请注明出处：https://www.growthhk.cn/quan/45940.html

通过5个步骤，掌握AB实验基本流程｜数据小匠人

定义评价指标

设计实验

运行实验获取数据

分析结果

实验结果支持决策

关于作者

增长黑客

发表回复

通过5个步骤，掌握AB实验基本流程｜数据小匠人

定义评价指标

设计实验

运行实验获取数据

分析结果

实验结果支持决策

关于作者

增长黑客

增长黑客Growthhk.cn荐读更多>>

神策数据：游戏企业如何做产品A/B测试？三大案例一次搞懂

刘生：Martech 营销自动化从 AB测试开始｜直隶暗察使

王赛：A/B测试应当成为一种企业增长行为

3分钟，看懂多版本ABtest怎么做｜码工小熊

随机测试和AB测试在风控策略上的应用

硅谷增长专家Andrew Chen：AB测试的陷阱

发表回复