快捷搜索:

【澳门新葡8455手机版】不如大家来赌一把,3实验

日期:2019-07-25编辑作者:澳门新葡8455手机版

原标题:社会科学研究新危机:超1/3实验结果被发现无法重复

(Vicky W/编译)你读到一篇科学文章,查看结果,然后问自己:这是真的吗?它是否反映了事实,还是只是统计学上的偶然?这种批判分析文章的能力,约束着所有的科学领域,是同行评议程序的本质。当然,它比看起来要困难些。

今天,由五个实验室组成的协作团队在 Nature 杂志子刊上发表了一项研究结果,这项研究就是对 21 个已发表在 Science 或 Nature 杂志上的社会科学实验的复制。结果,研究人员未能成功复制超过三分之一的研究结果,并且复制成功的那些与原始研究相比证据也显著较弱

考虑一下心理学。最近,几次重复经典教科书实验结果的尝试都以失败告终,同时,越来越多的人意识到,许多论文并非对假设的仔细检验,而是已被普遍接受的统计诡计炮制出,这一切都正让心理学领域蒙羞。我在八月报道过,弗吉尼亚大学的布莱恩·诺塞克(Brian Nosek)带领诸多同行试图重复一百项已发表的实验,但只有三分之一的实验结果与原结果一致;这足以说明问题。

在进行复制实验之前,该团队还设立了一个“预测市场”,其他研究人员可以下注哪些研究能被复制,结果证明“预测市场”的预测相当准确

那么问题来了:心理学家们在搞清楚自己的研究是否可靠这个问题上,到底有多大的把握?

Gideon Nave 是沃顿商学院市场营销专业的助理教授,也是本次研究的领导者之一,他说:“人们可以说有一些没有成功复制的结果可能是因为本次研究与原始研究之间存在差异,也有可能是复制研究中出现了错误,但‘预测市场’准确预测了结果,说明事情没那么简单。”

根据斯德哥尔摩经济学院的安娜·德雷贝(Anna Dreber)的研究,事实上把握还不小——只要你能让他们集思广益,并赌上一把。德雷贝建立了了一个“交易”科学论文的股票市场,让心理学家们估计44篇已发表文献中的实验可重复的可能性,以此为依据来买进或者卖出这44只“股票”。这个市场在预测重复实验的实际结果上表现很好,当然,也比任何单一股民自己的预测准确得多。

该团队的研究人员分别来自来自宾夕法尼亚大学、因斯布鲁克大学、斯德哥尔摩经济学院,新西兰高等研究院(New Zealand Institute for Advanced Study)、开放科学中心(Center for Open Science)、新加坡国立大学、弗吉尼亚大学、加州理工学院、哥德堡大学、哈佛大学、瑞典 Spotify、慕尼黑大学、阿姆斯特丹大学和哈尔滨工业大学。

澳门新葡8455手机版 1安娜·德雷贝个人主页上的照片:乒乓球台和一堆钞票;不愧是行为经济学家啊。图片来源:sites.google.com/site/annadreber/

研究人员首先从 2010 年至 2015 年期间发表的实验性社科论文找到所有涉及随机对照实验,对照试验可以是由大学生做问卷调查的形式完成,也可以是网络问卷形式,然后再尝试从这些符合他们要求的论文中选取主要实验结论进行重复研究。为了对普遍使用的复制方法进行扩展和改进,该团队不仅获取了原始研究材料,还在进行研究之前让原作者对协议进行审查和认可。这些研究的实验设计和分析计划都公开,研究设计包括大样本量,以便复制可能会检测到对结果的支持的样本。

德雷贝的点子是在酒吧里萌芽的。当时,她一边跟丈夫乔纳·阿尔姆博格(Jonah Almenberg)、室友托马斯·菲佛(Thomas Pfeiffer)喝酒,一边谈论一个引人注目的心理学实验。她觉得这个实验“挺聪明,但不太可能是真的”。就在她猜测着自己的直觉有多准时,菲佛提到了乔治梅森大学的经济学家罗宾·汉森(Robin Hanson)的另一篇论文。这篇论文的题目是,《赌博能拯救科学吗?》文中提出,如果学者能用期货交易商对商品未来价格下赌注的方式,就有争议的学术成果打赌,他们便能获得更真实可靠的共识。

该项目的另一位领导者 Felix Holzmeister 来自因斯布鲁克大学,他表示:“为确保复制研究的高功效(power),我们的平均样本量大约是原始研究平均样本量的 5 倍。”

“这个说法让我们都惊呆了。”德雷贝说。2012年,她和同事们联系了诺塞克,对方同意在自己的重复实验项目中加入预测市场。

研究小组发现,21 个重复实验中,有 13 个显示出与原始假设一致的显著证据,即复制成功率为 62%,而评判复制是否成功的其他评估方法也给出了类似的结果,范围从 57%到 67%不等。此外,平均而言,复制成功的研究效应值大小比原始研究小约 50%。这表明即使在最负盛名的科学期刊上发表的研究也没有优异的的可重复性

44支“研究股”,谁涨了谁跌了?

预测市场具体是这么操作的:92个参与者每人都会得到100美元,可以用来买进或者卖出41篇正在进行重复实验的研究。交易开始时,每支股票——也就是一项研究——价值0.5美元。如果研究被成功复制了,他们会得到1美元;如果没有,那他们什么都得不到。随着时间推移,这些论文的市场价格也会根据被买进或卖出的数量而上升下降。

通过投注给他们认为能成功的研究,参与者们努力使自己的利润最大化,同时,他们也能实时看到其他人共同决策的结果。两周的实验结束后,交易者们共同决策所决定的股票最终价格反映了每项研究能被成功复制的可能性大小。如果股票价格是0.83美元,就表示市场所预测的复制成功率是83%。如果最终价格大于0.5美元,德雷贝的团队就将其视作预测重复实验复制成功,反之就是预测重复失败。

最终,市场准确预测了71%的复制结果。这样的成绩虽然说不上让人震惊,但在统计学上也是显著的。话说回来,根据最终价格,研究团队的预期是市场只在69%的情况下预测正确——这与结果大致相符。(请记住,这些价格指的是成功的可能性,本身就包含着对它们所代表的预测的不确定性。)澳门新葡8455手机版 2图中纵轴表示股票的价格;价格超过灰线(0.5美元)的股票视为被市场预测为能够成功重复。黑色的方块是真正重复实验成功的研究(共16个);红色的方块是重复实验失败的研究(共25个),灰色的方块是尚未完成重复的研究。图片来源:研究论文

“群体智慧是存在的,人们对哪些结果对、哪些结果错有某种直觉。”德雷贝说,“这就让我不禁想:那同行评议是怎么回事?如果人们知道哪些结果很可能不对,那他们为什么还让它们发表出来呢?”

这个嘛,诺塞克解释道,市场中的参与者仅仅在意研究是否能被复制,但同行评议者还会关注实验设计、重要性、利益等其他因素。同时,工作性质使然,评议者往往独自工作,而德雷贝的交易人们单干时也表现得十分糟糕。当德雷贝让他们预测每项研究成功复制的几率时,他们的正确率只有58%,不比瞎蒙好多少。但作为集体,他们能看到其他人的想法,因此结果就有效得多。

“这表明,在进行重复试验之前,就已经有了预测复制成功率的信息。”诺塞克说。这些信息到底是什么?在交易中表现优秀,来自布里斯托大学的马库斯·穆纳夫(Marcus Munafo)表示:“我并没有一个清楚的策略。”他自己也将预测市场用于评估科学研究。他重点关注统计功效,最初的研究发表在哪本刊物上,以及研究属于心理学的哪个领域。“除了这些之外,我只不过是在用直觉来判断研究可不可信。”

来自斯坦福大学,从事研究偏见和不当行为研究的达尼埃尔·法内利(Daniele Fanelli)说,这就是最有趣的部分。“它提出了一些趣味无穷的研究问题,关于对参与者来说,理解哪些因素——无论是有意识还是无意识的——是最有信息量的。”他说道。

诺塞克补充道:“我们也许能利用预测市场,更有效地决定哪些研究需要被重复,同时用来估计那些不太可能、或者根本不可能被复制的研究的不确定性。”

但法内利对此并不确信,他认为这种方式“过程太过麻烦,不太可能被广泛采用”。汉森之前也有过类似的怀疑。“这些年来,人们已经进行过大量的预测市场实验,这些发现其实并不惊人,”他说,并表示:“我认为,绝大多数在学界工作的普通心理学家需要比满足个人好奇心更强的激励,才会愿意参与到这个项目中来。”

学者们在预测市场的成功需要与切实的利益挂钩,比如金钱奖励,或是对发表、拨款和求职有利。他解释道:“想象一下,如果有一本,甚至几本顶尖刊物使用预测市场给出的可重复概率来决定要不要发表论文, 论文的作者,和反对他们观点的对手就有了参加预测市场交易的动机。如果其他人认为只有作者或对手参与的交易会使预测产生偏见,他们也会得到加入市场的激励。”

澳门新葡8455手机版 3

看待科研的新视角

预测市场的用途不仅限于分析单个研究的可靠性,它还为观察科学研究的过程本身提供了一种有趣的视角。利用最终市场价格和一些统计趋势,德雷贝的团队能够回溯每一项研究的历史,展示出在研究过程,假设是怎样被一步步增强和削弱的。

比如说,在经过任何实验之前,它们所验证的假设有多大可能是正确的呢?只有8.8%。这反映了一个事实——心理学家往往会将新奇的现象作为研究对象。

更令人担心的是,在实验完成、评议、出版之后,它们所验证假设正确的可能性大小也仅仅上升到了56%。“所以说,如果你在阅读这些期刊时好奇它们到底是不是真的,抛个硬币就可以了!”德雷贝说,“我觉得这还挺糟糕的。人们总是说如果P值小于0.05,那么就有95%的可能性这个假设是正确的。这是不对的,你需要高强度的复制结果。”

事实上,德雷贝团队计算出,如果其他学者成功复制了某项研究结果,那它的假设就有98%的正确率。如果失败了,那正确的几率就下降到了6%。“重复实验失败所产生的怀疑,和研究初始时的可信几乎是等量的。”诺塞克说,“就好像研究又回到了起点,成了一系列有趣、但大多数都不太可能成真的想法,需要证据检验才能得出强有力的结论。”

澳门新葡8455手机版 4假设的一生:为真的可能性从刚提出时的8.8%(中位数),到经过研究、但未接受重复检验的56%;接下来,如果重复失败,可能性便会一路跌到6.3%,但如果重复成功,便会上升到98%。图片来源:研究论文

目前,德雷贝正在其他领域重复她的实验,例如实验经济学。“我不想只针对心理学。”她说,“也许其他领域更糟糕,但至少心理学家愿意认真对待。”(编辑:Ent)

(来源:Charles Rondeau/public domain)

另一个研究领导者 Magnus Johannesson 来自斯德哥尔摩经济学院,他表示,“这些结果表明,那些'具有统计显著性'的科学发现,在被成功重复前都需要进行非常谨慎的解读即使在最负盛名的期刊上发表也是如此

研究小组设立的“预测市场”正确预测了 21 次重复实验中 18 次的结果。“市场”的预测与重复实验的效应值大小呈高度相关

另一位来自新西兰高等研究院的研究领导人 Thomas Pfeiffer 指出,“预测市场”的预测结果表明,研究人员对研究结果可重复性具有预先的判断。有些研究具有重要发现,但重复成功的可能性可能相对来说不确定,有了“预测市场”工具,研究人员就可以决定哪些实验优先重复实验,而不会在那些“预测市场”认为不会重复成功的研究上浪费精力。

使用预测市场可以更有效地利用科学社区的资源,也能加速我们的研究发现。”来自斯德哥尔摩经济学院的另一个研究领导者 Anna Dreber 补充道。

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:【澳门新葡8455手机版】不如大家来赌一把,3实验

关键词:

硅和碳首次借助天然酶,硅基生命也许不只存在

原标题:硅基生命大概不仅存在于科学幻想文章中 美学家笔下的硅基生命。方今的商量第叁遍验证,细菌能够创建出...

详细>>

澳门新葡8455手机版新型普适碱基编辑器开发成功

原标题:我国科研人员开发新型普适高效的碱基编辑器 中国科学院上海生命科学研究院中国科学院-马普计算生物学...

详细>>

你应该还会搭建病毒式增长模型,读书笔记

原标题:只玩裂变还不够,你应该还会搭建病毒式增长模型 C端增长必读书籍,强烈推荐。 “裂变”玩法可谓是互联...

详细>>

何以新物种将会形成你的创办实业机缘,华夏族

原标题:华夏族科学家第三遍斩获能源“诺奖”!微米发电机之父要如何改换世界?|EmTech China 2019 奥斯陆本土时间...

详细>>