你的 A/B 测试是垃圾测试吗？

王瑞秋 1年前

本文将从市场营销的角度来谈，在设计一轮 A/B 测试时，必须要记住的要点内容。

在这个以数字为先的广告世界，许多人都渴望将营销、市场作为一门科学来管理。于是，他们用精确、测量、数据这些科学的字眼来说话，他们聘请专业人士，他们教团队用结构化的实验来验证他们的假设……

然而，除了十分专业的产品经理以外，大多数人并不知道如何用科学、正面的方法论去研究 A/B 测试的问题，尽管他们进行了所有“成功”的 A/B 测试，但对于具体的业务指标并没有多大改善。

为什么会这样呢？相关人员到底在 A/B 测试中学到什么？我认为，从市场营销的角度来谈，在设计一轮 A/B 测试时，必须要记住以下几个要点：

1. 统计显著性

虽然这几个字看上去毫无趣味，但大多数营销人员不能正确定义统计的意义。

当我们开始一个 A/B 测试：

“我正在测试的广告之间没有性能差异。”

然后，我们运行测试并收集数据，我们希望这些数据将反馈给我们信息，并得出相反的结论，即存在性能差异。

但从技术上讲，问题是：

“假设最初的假设成立，任何性能上的差异都是由随机因素造成的，那么能观察到实际差异的可能性有多大？”

所以，计算 p 值很棘手，但需要理解的重要一点是：p 值越低，我们就越有信心得出我们测试的广告之间存在真正差异的结论。具体地说，p 值为 0.05 意味着有 5% 的可能性，观察到的性能差异将由于纯粹的随机因素而产生。

然而，重要的是，要学会理解这只是一个社会惯例所使用的标签而已。在一个数据匮乏、没有电脑的时代，这可以说是一个合理的标准，但在今天的世界，它可能已经被打破了。

2. 统计显著性≠实际显著性

统计显著性分析虽然可以帮助市场人员评估广告之间是否存在性能差异，但它并没有说明这种差异在实际应用中有多大或有多重要。有了足够的数据，无关紧要的差异可被视为“具有统计意义”。

例如，假设你用两个稍微不同的广告运行一个 A/B 测试。

你为每个广告投放了 1,000,000 个展示，然后你发现版本 A 获得 1,000 个展示，而版本 B 获得 1,100 个展示。使用相关的 A/B 测试计算方法，你将看到这是一个“具有统计意义”的结果—p 值为 0.01，远远超过通常的 0.05 阈值。

但这一结果是否具有实际意义？

数字代表着一个进步，但在大多数营销环境中很难改变游戏规则。记住，有时候需要成千上万次的投放才能得出这个结论，而这个结论本身就很费钱。

我对营销人的实际建议是，要学会接受这样的事实：市场与产品不同，A/B 测试中微小的调整可能很难会产生巨大影响。

要学会重新定义测试在市场营销中所扮演的角色，使你的团队成员将重要性分析理解为一种比较有意义的理念与方法，而不是定义成功。

3. 谨防“偏见”

但是，如何理解那些我们读过的、并与我们的团队分享过的、看起来微不足道的 A/B 测试带来的巨大性能收益的文章呢？比如“如何添加逗号提高 30% 的收入”“这个表情符号改变了我的生意”等等。

虽然肯定会发生这样的情况，但它们的数量和距离都比互联网搜索所能让你相信的要少得可怜。

在市场营销领域，这个问题被一些因素复杂化了：人们总是很轻易的认为，通过一些 A/B 测试，轻松取胜就在眼前。所以，他们当然不会公布那些没有产生有趣结果的实验，也就容易造成一种分布偏见。我们不会看到或谈论所有 A/B 测试的结果，更何况一些测试运行的结果根本就是无关紧要的。

所以，请记住，一些看起来好得令人难以置信的结果很可能是真的。但你需要这样问自己：他们进行了多少次实验才得出如此惊人的结果?

不要因为要复制有价值的结果而感到压力，相反，要把注意力集中在不引人注目但更重要的工作上，测试有意义的不同策略，并寻找具有实际意义的重大结果——这才是真正的价值所在。

4. 小心 p-hacking

数据是营销人员最好的朋友，但它同时还带着一个警告标签，因为你拥有的数据维度越多，你就越有可能以某种方式陷入被称为“p-hacking”的反模式。P-hacking 指的是数据分析能够从纯噪声中产生看似“具有统计意义”的结果的某些方式。

最明目惊心的 p-hacking 形式，不过是不断地进行实验，直到得到你想要的结果。记住，p 值为 0.05 意味着观察到的差异有 5% 的几率是随机产生的，如果你将同一个实验进行 20 次，你应该期望仅凭偶然就能得到一个“显著”的结果。如果你有足够的时间和动力，你可以有效地保证在某一时刻取得显著的成果。众所周知，制药公司为了让一种药物获得 FDA 的批准会做这样的事情，但这可不是什么好事。

大多数营销团队永远不会做这么愚蠢的事情，但有一些更微妙的 p-hacking 形式需要注意。

例如，你针对受众，运行两个不同的广告。但是，当高层次的结果被证明不显著时，通常会发生的情况是，我们对数据进行更深入的挖掘，以寻找更有趣的发现。

也许如果我们只看女性，我们会发现不同？我们看看不同年龄段的人呢？看看 iPhone 和 Android 用户……

这种方式很容易分割数据，但通常被认为是一种很好的实践方法。

在科学领域，这个问题已经通过一种叫做“预注册”的实践得到了解决。在这种实践中，研究人员公布他们的研究计划，包括他们希望进行的数据分析，以便他们研究的消费者能够相信，结果不是在电子表格中合成的。而在市场营销中，我们通常不会公布我们的结果，但是我们应该应用这些最佳实践。

5. 在 ROI 中包含实验成本

生活中一个经常被忽视的事实是 A/B 是免费的。但其实，它们需要花时间、精力和金钱来设计和执行。

大多数 A/B 测试关注的是创造性，因为广告性能在很大程度上是由创造性驱动的。大多数写在 A/B 测试上的东西就像从天上掉下来的创意一样，你所需要做的就是测试，以确定哪种效果最好。

例如，假设你的总营销预算为 25,000 美元，而你正在尝试决定是在单个广告上花费 2 千美元，还是在 5 种不同的变体广告上花费 5 万美元。如果我们假设你需要在每个广告变体上花费 1 美元来测试其性能作为 A / B 测试的一部分，那么你需要获胜的广告比 A / B 测试的基线性能至少高出 20％才是值得的。

20% 可能听起来并不多，但是任何做过重要 A/B 测试的人都知道这样的收益并不容易获得，特别是如果你在一个相对成熟的环境中进行操作。所以，请记住，你的目标是最大化广告投资回报率，而不仅仅是为了实验而实验。预先运行 ROI 计算，以确定你需要多大程度的改进才能使你的 A/B 测试物有所值。

写在最后

科学的营销方法对该领域具有不可思议的价值。但营销人员经常使用的一些方法和工具，可能只是肤浅的理解，最终浪费了大量的时间、精力和金钱。为了避免重复这些错误，并在相关问题上取得一些有价值的进步，相关人员必须学会从复杂或习以为常的错误中，不断吸取教训，改善并提升。

原文作者：Nathan Labenz

原文来源：https://martechtoday.com

编译：研如玉，神策数据·用户行为洞察研究院（公众号：SDResearch）

本文由 @研如玉翻译发布于运营派，未经作者许可，禁止转载。

给作者一些鼓励吧！

等我一分钟我去找个夸你的句子

这世上美好的东西不多，牛起来要人命的你就是其一！

不要厉害的这么随意，不然我会觉得我又行了

这就很离谱了，老天爷追着喂饭的主儿～

我要是有这才华，我走路都得横着走！

对你的作品崇拜！

反手就是一个推荐，能量满满！

感谢分享

马赛克最近回复

努力就好，做真实的自己，不留遗憾。
钓鱼文最近回复

半个运营，欢迎点评产品研发期：沟通能力，理解能力，用户画像，造势产品迭代期：规划能力，用户分析，数据分析，行业趋势，关注利用热点，突发情况处理能力，数据变化应对策略
潘玮最近回复

作者你好，有没有什么好书推荐看看
ikun 最近回复

棒！这篇写的很通俗易懂
秋田最近回复

精彩的文章，甚是精彩