一篇要求重新定义P值的论文炸起科学界百人论战

  72位学术大牛一起发了篇论文,引来87位作者署名的反驳论文。对于统计学上牵动人心的P值要多小才能算结果显著,科学家们开始了一场大规模论战,甚至用上了谷歌共享文档。

  荷兰埃因霍温理工大学的心理学家丹尼尔·莱肯斯(Danil Lakens)以心直口快闻名。2017年7月22日,他在读完一篇标题为《重新定义统计显著性》的预印本论文后,毫不留情地在推特上开喷:“一群聪明人给出这么恐怖的糟糕建议,我对此非常失望。”这篇被喷的论文由70位著名的科学家共同完成,两个月后发表在了知名期刊《自然-人类行为》上。

  而让莱肯斯抓狂的原因是:这篇论文建议降低在众多实验中使用的显著性阈值,让p值低于0.005而非现在使用的0.05时才能算作结果显著。科学家们希望用这种方式降低假阳性率,提高科学实验的重现率。

  但是37岁的莱肯斯认为这是一个灾难性的想法。在一个更低的显著性阈值要求下,需要更大的样本量才能让统计结果显著,会让许多实验无法操作。再者,他说,“当科学如此多样化的时候,为什么要限制一个单一的p值标准?”

  他和他的同事们在今年年初也投递了一篇针锋相对的论文,被《自然-人类行为》接受。与众不同的是,这篇文章是全世界上百位科学家在谷歌文档里共同写出来的。

  P值是一个非常难掌握的概念。现在,让我们先通过简单粗暴的方式理解区分关于p值的各种概念:

  假设:科学家提出并要去证明的观点,与零假设矛盾。如:假设A和B有联系。证明以归谬法的逻辑,若零假设是错的,那么与零假设相反的结论可能有效。

  P值:简单来说,P值越小,零假设有问题的可能性越大,你的假设就越可能成立。若P=0.05,则这时拒绝零假设,有5%的可能性你“冤枉了”正确的零假设;若P=0.01,那么拒绝零假设你只有1%的可能是错的。

  显著性阈值(α):P值小到什么时候才能拒绝零假设又被学界认可?这个一刀切的门槛就是显著性阈值,完全人为设定。目前这个学界认可的门槛高度是0.05,即当p值小于0.05时可以说实验结果统计学上显著。

  P值方法是广泛使用的统计手段,但因其自身的缺陷饱受争议。学界对于p值的讨论一直很热烈,有一批科学家就认为,由p值小于0.05推出的结论并不如人们想象中的那么靠谱,需要降低实验中使用的显著性阈值。

  毕竟经过一次扩容后的推特,最多也才能发280个字。为了能深入讨论P值修订的问题,莱肯斯干脆在谷歌上创建了一个共享文档,标题是“为你的α值正名:对重新定义统计显著性的回应”。莱肯斯在文档中列出了12个讨论点,包括“我们应该对这个建议做出评价还是无视它”以及“这样重新定义统计显著性存在的潜在负面影响是什么”。

  莱肯斯说他想要这次的方案尽可能考虑每个人的想法,使想加入的人都等加入进来,并且没有主动找任何有名的科学家。在这种情况下,有接近150位科学家加入了讨论,文档激增到了100页。

  讨论的参与者十分多样,有很多来自不那么有名的学校,很多人分享了他们的私人经验。因为p值和样本量有关,所以想要得到小于0.005的p值,可能需要更多的样本。有些参与者表示他们难以负担这样的大型实验,或者是没有办法招募到足够的被试。有些人则指出这个更低的阈值会使研究者转而寻求“方便的样本”,比如找本科学生或者采用网络研究。批评者还指出满足要求的大型实验更加难以复制,违背了提出新标准的初衷。同时,一个更严格的显著性阈值可能会让研究人员规避风险、更少地去研究困难课题。

  除开修改阈值对科研造成的负面影响,参与者们对论文最大的质疑还是在于:0.005其实和0.05一样随意,真正的阈值实际上取决于我们对一个主题的了解程度和在这个主题上得到错误答案的风险。比如,初步实验对出现假阳性结果的风险接受度应该更高,药物实验则可能需要一个更低的p值。

  莱肯斯希望能将谷歌文档中的讨论变成论文发表,不过这一次事情没有那么顺利。

  丹尼尔·布拉福德(Daniel Bradford)是威斯康星大学麦迪逊分校的临床心理学博士生。布拉福德十分高兴能为论文出一份力,“我做了很久的统计学学生,也参过大量改良心理学实验方法的讨论。”不过他刚开始的时候怀疑这种共同写作的方法行不通,“在我和仅仅五位作者共同完成论文的时候,都时常想如果人更少的话效率会更高。”

  为了顺利成文,莱肯斯从讨论中提取了要点放在一个新的谷歌文档里作为论文的基础。

  “这份文档的演变过程让人难以置信,人们添加、删除再添加,旁观者又提出新的看法。这种模式奏效了。人们愿意承担特定工作,比如修改参考文献、检查段落和标点的问题。当我们不得不压缩文章的时候,一些作者化身食人鱼消灭掉了一切不必要的内容。”莱肯斯说。

  虽然作者们精诚合作,但留给莱肯斯的任务还是很多——尤其是在莱肯斯需要完成常规工作的情况下。他只能利用空闲时间来完成任务,比如早上或者夜间。

  在论文完稿的过程中,有几个参与者选择了退出,部分原因是他们不同意论文中的部分内容。最终87个人同意成为论文的共同作者。

  莱肯斯等人的论文建议完全丢弃“统计显著性”的标签。作为替代,研究者应该描述并解释它们的实验设计和数据处理方式,包括所选取的统计阈值。“有时候显著性水平可以是0.05,有时候是0.005,或者是0.10。”莱肯斯说。

  原论文《重新定义统计显著性》的第一作者是德克萨斯农工大学的瓦伦·约翰逊(Valen Johnson),他认为莱肯斯的方法行不通。“让每篇论文的作者决定他们自己的显著性水平是不可行的,”他在写给《科学》的邮件中写道,“理由很简单,没有足够的资源对每个被提出的显著性阈值进行详细、公证的审查。”同时也不清楚“证明α的合理性”在实际中如何操作,论文的共同作者、阿姆斯特丹大学的埃里克-简·瓦根马克斯(Eric-Jan Wagenmakers)补充道。

  另一位重要的共同作者态度更为温和。在弗吉尼亚大学的心理学家布莱恩·诺塞克(Brian Nosek)看来,“莱肯斯那篇论文中传达出的信息非常好,实际上不是对我们的论文的批判。” 诺塞克说《重新定义统计显著性》这篇论文传达的关键信息非常有限:目前0.05的显著性阈值让人们高估了证据的可信度,如果要降低这一阈值,0.005是一个合理的替代值。

  “其他对显著性问题的建议,比如抛弃所有的显著性检验、对所选取的α做出解释、结合贝叶斯推论、更多的重复实验等等,也都是非常不错的改进。”诺塞克说。

  这一场辩论还会继续,不过地点可能不会是谷歌文档了。谷歌文档中发生的故事“令人惊叹”但效率并不是很高,莱肯斯说,“当你的时间有限时,你不应该这么做。”

  “讨论很激烈。我们确实因为无法取得统一的意见,放弃掉了一些论点。如果只有我一个作者,我会把那些加进去的。”莱肯斯补充说道。

  看来关于统计显著性,能讨论的还有很多。而每一次讨论,都可能是完善科学方法的星星之火。