这个以数字为先的广告世界,许多领导者都渴望将营销、市场作为一门科学来管理。于是,他们用精确、测量、数据这些科学的字眼来说话,他们聘请专业人士,他们教团队用结构化的实验来验证他们的假设……
然而,除了十分专业的产品经理以外,大多数人并不知道如何用科学、正面的方法论去研究A/B测试的问题,尽管他们进行了所有“成功”的A/B测试,但对于具体的业务指标并没有多大改善。
为什么会这样呢?相关人员到底在A/B测试中学到什么?
我认为,从市场营销的角度来谈,在设计一轮A/B测试时,必须要记住以下六个要点:
一、统计显著性
虽然这几个字看上去毫无趣味,但大多数营销人员不能正确定义统计的意义。
当我们开始一个A/B测试——“我正在测试的广告之间没有性能差异。”
然后,我们运行测试并收集数据,我们希望这些数据将反馈给我们信息,并得出相反的结论,即存在性能差异。
但从技术上讲,问题是——“假设最初的假设成立,任何性能上的差异都是由随机因素造成的,那么能观察到实际差异的可能性有多大?”
所以,计算p值很棘手,但需要理解的重要一点是:p值越低,我们就越有信心得出我们测试的广告之间存在真正差异的结论。具体地说,p值为0.05意味着有5%的可能性,观察到的性能差异将由于纯粹的随机因素而产生。
然而重要的是,要学会理解这只是一个社会惯例所使用的标签而已。在一个数据匮乏、没有电脑的时代,这可以说是一个合理的标准,但在今天的世界,它可能已经被打破了。
二、统计显著性≠实际显著性
统计显著性分析虽然可以帮助市场人员评估广告之间是否存在性能差异,但它并没有说明这种差异在实际应用中有多大或有多重要。有了足够的数据,无关紧要的差异可被视为“具有统计意义”。
例如:假设你用两个稍微不同的广告运行一个A/B测试。
你为每个广告投放了1,000,000个展示,电话号码列表 然后你发现版本A获得1,000个展示,而版本B获得1,100个展示。使用相关的A/B测试计算方法,你将看到这是一个“具有统计意义”的结果——p值为0.01,远远超过通常的0.05阈值。
但这一结果是否具有实际意义?
数字代表着一个进步,但在大多数营销环境中很难改变游戏规则。记住,有时候需要成千上万次的投放才能得出这个结论,而这个结论本身就很费钱。
我对营销领导者的实际建议是,要学会接受这样的事实——市场与产品不同,A/B测试中微小的调整可能很难会产生巨大影响。
要学会重新定义测试在市场营销中所扮演的角色,使你的团队成员将重要性分析理解为一种比较有意义的理念与方法,而不是定义成功。
三、谨防“偏见”
如何理解那些我们读过的、并与我们的团队分享过的、看起来微不足道的A/B测试带来的巨大性能收益的文章呢?
比如:“如何添加逗号提高30%的收入”“这个表情符号改变了我的生意”等等。
虽然肯定会发生这样