A/B测试要遵循一个基本原则即控制变量,一个假设情景下即可看出大多数人没有搞清楚 A/B 测试究竟是什么。 并非面试官故意刁难,而是他抓住了问题的本质:任何实验都要遵循一个基本原则即控制变量,A/B 测试亦是如此。开发新功能与业绩提升之间会遇到各种外部因素影响(季节性、活动、广告流量等)。其实,大多数人没有真正弄懂 A/B 测试究竟是什么。今天我们就以亚洲民俗共享平台 AsiaYo 为例来剖析 A/B 测试试验该怎么做,助你在转化率提升方面五杀超神! 一杀:试验假设 好的行为心理,通常是从观察真实使用者行为反应所诞生。而行为心理假设,最主要好处有:
二杀:统计假设检验 在无法普查所有使用者的状况下,需要透过统计与抽样来计算对立假设成立与否。但抽样的风险是,有可能发生弃真错误与取伪错误。 举个例子,以小明检测艾滋病来说,小明希望证明的当然是没有艾滋病(对立假设 H1)、而虚无假设(H0)则为有艾滋病。
弃真错误发生的机率( α )与取伪错误(β)发生机率是相对的,想缩小弃真错误机率,就会增加取伪错误机率;反之亦然。所以,决策时需要明确想要避免哪种错误风险,而唯一降低两种错误风险就是把样本数扩大(越接近普查越准确)。 ps.弃真错误发生的机率 = α , 1- α 即是常见的信心水平 (Confident Level),通常至少会抓 95% 为显著。 再回到主题 A/B 测试来说,基本上目标都是提升转化率(CVR)。所以我们想证明的对立假设应该是转化率有提升。在这种状况下,应该要降低哪种错误风险?
从 AsiaYo 用户产品团队角度来说,由于目标是优化转化率,我们想尽量避免型一错误(转化率没优化甚至变差,却推出给使用者)。也就是型一错误发生机率 (α) 越低越好(confindent level 越高越好)。 三杀:试验设计与资源分配 有效运用你超有限的资源,却又能快速试错验证假设是一门高深艺术,那如何决定每个试验所需样本数呢?计算所需样本数需要三个要素:
这时候问题来了,除了原始转化率外,要如何决定 MDE 以及 Confident Level?这时还需要考虑另外两个要素限制:
有了上述五种要素,我们可以得出下表(所有数字都被随机数调过,仅供参考)。透过以下表格可以决定在 「不同情境 + 有限资源」 下,应该设立多高的 confident level 以及 MDE,以利样本数、试验运行周期的估算。 四杀:试验分析 “忽略连续性脉络” 举例来说,如果是更改测试 订房 Call to Action 按钮文字,指针只看「按钮点击率」是否有显著提高,但没有同时观察「成交率」是否有提升。最常见的是第一步点击率提高,但最终成交率却是不变甚至降低了(原因是用巧妙手法去诱使使用者点击,但并没有真正满足使用者需求)。除了前面步骤的转化率,更要同步观测最终步骤的转化率变化 第二常见的大忌是... “忽略置信区间,只看最终数字变化” 五杀:行动方案 1.试验结果显著与不显著
如果我们只单看订房按钮点击率,很有可能就会停止此试验,但在同步观察最终指标(下单转转化率)状况下,我们发现试验其实是成功的。 而在 Web 取得成功案例后,我们认为同样的心理行为脉络一样可以在 Mobile Web 重制,于是在 Mobile Web 设计了类似的第二个试验。
出乎意料的,在 Mobile Web 试验结果并不显著。经过一番讨论,我们认为应该是在手机上此版试验 UI 并不够明显吸引使用者注意。于是我们再尝试了第二版 Mobile Web 试验,并设计了许多不同 UI 呈现方式。
这次的试验结果则是有两个试验组分别达到 95%、99% confident level,下单转化率相比控制组优化了 24%。(右上角的 UI 获胜!) 会有上述讨论,很重要的是原先假设是根据使用者的心理行为脉络、而非功能性假设。如果是功能性假设我们很有可能就会停止试验。 2.反向显著 并不是每一次A/B测试试验最终都导向预期假设,往往会证明原版本效果更加。在这里举一个极端的例子,我们曾设计了新版 Mobile Web 搜寻结果的 UI ,控制组是列表版、而试验组是大图版(我们认为房间图片增大,能看得更清楚会更吸引使用者并能辅助订房决策)。 结果试验结果大出我们意料之外,呈现反向显著(控制组显著地比试验组好)。后续成员们在探讨原因认为是使用者在手机上想要一次能浏览多间民宿,而大图版反而造成浏览困难。反向显著有时会是让你找到其他 insight 的好帮手!它能够帮助你洞见真实存在的用户需求,排除一些主观臆断的伪需求。 3.不显著但依旧 100% Release 试验结果,是一种决策依据,并不是决策本身。即使试验结果不显著,也存在最后决议 release 功能的情况。这个案例是原本单一旅宿的 Search Bar 在页面上方,而不是房间上方,我们认为这样造成日期搜索使用动很不方便,所以试验组设计将 Search Bar 下移至房间上方。
验结果转化率并没有显著提升(目前我们的 MDE 最低为 15%),团队成员讨论后,找了约十多位内部受访者访谈、测试易用性,发现高达 9 成受访者都觉得 Search Bar 在房间上方使用上比较顺手,虽然没有显著提升转化率,但我们认为易用性是有提高的,于是最终我们决议依旧上线此版本。 以上都是初创公司在有限资源(样本数与时间)状况下的情境。如果你的使用者非常多,恭喜你不用受样本所苦,但也有其他注意要点:
任何方法都存在边界问题,A/B 测试也存在边界。虽然A/B测试有可能是目前人类所能掌握的最高级的科学工具,但是并不是所有场景都是做 A/B 测试,比如:
A/B 测试只是一个科学工具,但是如何用好A/B测试工具优化产品决策,却是一项需要不断精进的艺术,是一项需要不断尝试的科学探索。 (本文由吆喝科技独家编译、整理,部分内容有删改) |