工程师老爸育儿经:我如何使用「AB测试」来养双胞胎

2020-07-08|浏览量:998|点赞:819


翻译:Wendy Chang

「我不知道我们该怎幺做才能让他们多睡。」我太太提出这个简单的想法,甚至还称不上是个问题,却成了我的挑战,工程师的脑袋就把它当作一个需要解决的问题。当一个软体工程师遇到问题,就要想办法来测试并解决它。幸运的是,我知道有个系统可以完美地来测试我的想法,而且是在能够控制、可以衡量结果的状况下,再加上我生的是双胞胎,这个测试方法更有用了,一起来看看我的A/B测试(A/B testing)!

A/B测试用于所有的网站,你每天可能遇到它几十次、甚至几百次,但完全不会注意到,所有的科技大公司都使用它做为测试的工具,了解某些点子的成效并且衡量。

举例来说Google曾尝试了多达41种各种深浅不同的蓝色,来作为搜寻结果呈现的颜色,据说设计师无法决定要使用哪两个蓝色,所以他们测了41种,来看看最后哪个结果会吸引比较多使用者点击搜寻结果。

Facebook则不断在动态消息里测试使用者体验;Amazon甚至常常更动购买按钮还有购物车的版面配置,如果你曾经试着从一台全新的电脑登入,或是看到朋友浏览同样的网站,可能会注意到他们的网页呈现和你的有些微的不同。

A/B测试是用来测一个或多个方法,或是针对控制组或现况做实验。测量的标準通常是根据一个使用者的行为,比如说相较于控制组的点击率。以Google的案例来说,他们可能会针对不同色调去测试不同使用者的点击可能性,经过一段时间后,大约是一至两周,点击率较好的结果就会被採用,然后又变成新的控制变因。

会让这个测试变得很複杂的情况,大部分是一次有很多个测试同时进行,或是说使用者的比例并没有平均地分配,这需要高度的统计学知识才能达成,或是强大的测试工具来处理。在Audible跟Amazon,我们总是在测试使用者经验,这是知道使用者行为的最好方式,因为使用者做的事情跟他们说的事情会有些微不同。

工程师老爸育儿经:我如何使用「AB测试」来养双胞胎

我决定用这个方法来测试孩子,看我们是否可以提高小朋友的睡眠时间,这对任何有十周大婴儿的家庭来说颇为重要,特别是有双胞胎的家庭。把一个孩子当作操作变因,另外一个就是控制变因,先不要去管有没有人会用变因来形容生活周围的人,我只是要来测试几个关于睡觉长短的假设,跟控制变因来对照。

在任何实验中,精确的测量还有数据追蹤都非常重要,通常,一个成功的指标选择是因为可以取得其相关数据,或是可测量结果,你不会想要测试一个东西的时间,比改变测试或是测试结果的时间还要长。幸运的是测量睡眠并没有很难,我跟我太太只要在孩子半夜醒来的时候记录下来就好,其实这正是从我们出生的那天起,医院护士就在做的,我们已经记了好几本笔记本,但还蛮容易追蹤的,我们甚至还把资料输进电脑的表格里,可以更直观地看到结果。

工程师老爸育儿经:我如何使用「AB测试」来养双胞胎

首先我们测试的是,提高睡前餵奶的量,过去只餵四盎司,我们试了五盎司、甚至六盎司,为了不要有偏差,两个孩子都交互着当操作变因,当一个被餵得比较多的时候,另一个就维持喝四盎司的量。结果是:尚无定论。

无论如何两个孩子的睡眠时间似乎都有拉长,他们两个几乎都睡了差不多长的时间。有一个晚上是多餵了一点奶而睡眠时间是5.5个小时,但是只有一个数据是不足以成为一个定论。另一个很难进行这个测试的原因是,只要餵超过五盎司,小朋友很有可能在几分钟之后就吐奶。

下一个是各亲子部落格流传的小秘方,同时在办公室的妈咪/爸爸之间相互传承——肥仔水(gripe water),好吧,也许它不是什幺秘密,但我们花了一段时间测试,据说这种混合草药和香料的方子可以一夜之间解决胀气问题,从而让宝宝睡得更久。经过测试了一周之后,我们发现它真的可以解决食物逆流、呕奶的问题,打嗝跟放屁似乎都有减少,虽然我们没有追蹤发生的时间。睡眠的长度并没有太大的变化,我们确实看到平均小幅增加,大约20至30分钟,但同样这可能是由于宝宝年纪在增加。

在肥仔水成为新的控制变因后,我们在宝宝睡觉之前,再试着多餵一次奶,宝宝们自动开始等着多喝一次,而我们同时也试着要防止这样的事,然而,这似乎是水到渠成测试的机会,所以我们还是尝试了。许多宝宝在睡觉之前会想要多喝几次奶,每次间隔的时间都很短,我们这次测试是间隔1.5到2个小时,跟正常的3个小时做对比,而餵的量是四盎司,对比他们白天喝四到五盎司的量,有时候他们会拒绝喝超过三盎司。

在所有的测试中,这个方式似乎成效最佳,最后得出来的结果是最多多睡一个小时,虽然还没有说持续好几天,但足以影响睡眠模式了。从A/B测试可以学到要改变是需要一点时间,因为人正在找寻新的因应方式并调整,抓到调整时间的结果和调整后的结果都一样重要。Apple最有名的就是在发表新品时忽视适应期的时间,尤其是Apple的地图服务。

最后我们试的是让宝宝们在白天尽量维持清醒,我们的假设是,这样他们晚上会更累,就会睡得更久。这也许是真的,我们后来观察到睡眠时间有微幅地增加,但我们没有算入因为要让他们不睡所带来的压力还有疲惫感。也甚至要花更久的时间来安抚他们入睡,因为他们已经太累了,这次的测试教训是:不要为了想要增加某个数字,就想要牺牲其他的。

大部分我们做的测试都没有结论,主要是因为样本数都一样,如果是有像Facebook一样的测试人数,统计上会比较有意义,测试也可以在小部分就完成。以双胞胎而言,也很难知道哪个是真实的结果,哪个是个性还有天生造成的,如果要更精準地测试,我们需要增加样本的数量大小,三胞胎也许会派上用场,不过应该是别人家的三胞胎啦,我们当然还没準备好。

这也说明「测试-测量-重複」过程的重要性。虽然几个方法测试后并没有太大的改进,但也许综合所有测试会有结果,当操作变因的表现超越控制变因时,就把它当作新的控制变因,就不断会有改进了。透过不断尝试前进,要想出新方法来试试就不是难事,你不需要一次移一座山,一次一点点就可以了。透过这样的方法来养育孩子,宝宝能够继续成长,如果加上运气的话,我们的理智、福利、还有父母的角色也都可以快速成长。


上一篇: 下一篇:

相关推荐