一篇要求重新定義P值的論文，炸起科學界百人論戰

小辣辣 · 發表於 2018-3-7 11:16

　　2018-03-07 10:40谷歌/Twitter

　　作者：Jop de Vrieze

　　編譯：錦衣Reload

　　72位學術大牛一起發了篇論文，引來87位作者署名的反駁論文。對於統計學上牽動人心的P值要多小才能算結果顯著，科學家們開始了一場大規模論戰，甚至用上了谷歌共享文檔。

　　荷蘭埃因霍溫理工大學的心理學家丹尼爾·萊肯斯（Daniël Lakens）以心直口快聞名。2017年7月22日，他在讀完一篇標題為《重新定義統計顯著性》的預印本論文後，毫不留情地在推特上開噴：「一群聰明人給出這麼恐怖的糟糕建議，我對此非常失望。」這篇被噴的論文由70位著名的科學家共同完成，兩個月後發表在了知名期刊《自然－人類行為》上。

　　

　　發起反駁論文的作者丹尼爾·萊肯斯。圖片來源：BART VAN OVERBEEKE FOTOGRAFIE

　　而讓萊肯斯抓狂的原因是：這篇論文建議降低在眾多實驗中使用的顯著性閾值，讓p值低於0.005而非現在使用的0.05時才能算作結果顯著。科學家們希望用這種方式降低假陽性率，提高科學實驗的重現率。

　　但是37歲的萊肯斯認為這是一個災難性的想法。在一個更低的顯著性閾值要求下，需要更大的樣本量才能讓統計結果顯著，會讓許多實驗無法操作。再者，他說，「當科學如此多樣化的時候，為什麼要限制一個單一的p值標準？」

　　他和他的同事們在今年年初也投遞了一篇針鋒相對的論文，被《自然－人類行為》接受。與眾不同的是，這篇文章是全世界上百位科學家在谷歌文檔里共同寫出來的。

　　什麼是p值？

　　

　　P值是一個非常難掌握的概念。現在，讓我們先通過簡單粗暴的方式理解區分關於p值的各種概念：

　　零假設：默認立場，或者說兩個統計現象A和B沒有聯繫。

　　假設：科學家提出並要去證明的觀點，與零假設矛盾。如：假設A和B有聯繫。證明以歸謬法的邏輯，若零假設是錯的，那麼與零假設相反的結論可能有效。

　　P值：簡單來說，P值越小，零假設有問題的可能性越大，你的假設就越可能成立。若P=0.05，則這時拒絕零假設，有5%的可能性你「冤枉了」正確的零假設；若P=0.01，那麼拒絕零假設你只有1%的可能是錯的。

　　顯著性閾值（α）：P值小到什麼時候才能拒絕零假設又被學界認可？這個一刀切的門檻就是顯著性閾值，完全人為設定。目前這個學界認可的門檻高度是0.05，即當p值小於0.05時可以說實驗結果統計學上顯著。

　　P值方法是廣泛使用的統計手段，但因其自身的缺陷飽受爭議。學界對於p值的討論一直很熱烈，有一批科學家就認為，由p值小於0.05推出的結論並不如人們想象中的那麼靠譜，需要降低實驗中使用的顯著性閾值。

　　谷歌文檔里的激烈討論

　　

　　想要反駁修訂閾值的論文，光用推特可不行。

　　畢竟經過一次擴容后的推特，最多也才能發280個字。為了能深入討論P值修訂的問題，萊肯斯乾脆在谷歌上創建了一個共享文檔，標題是「為你的α值正名：對『重新定義統計顯著性』的回應」。萊肯斯在文檔中列出了12個討論點，包括「我們應該對這個建議做出評價還是無視它」以及「這樣重新定義統計顯著性存在的潛在負面影響是什麼」。

　　萊肯斯說他想要這次的方案儘可能考慮每個人的想法，使想加入的人都等加入進來，並且沒有主動找任何有名的科學家。在這種情況下，有接近150位科學家加入了討論，文檔激增到了100頁。

　　討論的參與者十分多樣，有很多來自不那麼有名的學校，很多人分享了他們的私人經驗。因為p值和樣本量有關，所以想要得到小於0.005的p值，可能需要更多的樣本。有些參與者表示他們難以負擔這樣的大型實驗，或者是沒有辦法招募到足夠的被試。有些人則指出這個更低的閾值會使研究者轉而尋求「方便的樣本」，比如找本科學生或者採用網路研究。批評者還指出滿足要求的大型實驗更加難以複製，違背了提出新標準的初衷。同時，一個更嚴格的顯著性閾值可能會讓研究人員規避風險、更少地去研究困難課題。

　　除開修改閾值對科研造成的負面影響，參與者們對論文最大的質疑還是在於：0.005其實和0.05一樣隨意，真正的閾值實際上取決於我們對一個主題的了解程度和在這個主題上得到錯誤答案的風險。比如，初步實驗對出現假陽性結果的風險接受度應該更高，藥物實驗則可能需要一個更低的p值。

　　萊肯斯希望能將谷歌文檔中的討論變成論文發表，不過這一次事情沒有那麼順利。

　　人多也有人多的麻煩

　　

　　丹尼爾·布拉福德（Daniel Bradford）是威斯康星大學麥迪遜分校的臨床心理學博士生。布拉福德十分高興能為論文出一份力，「我做了很久的統計學學生，也參過大量改良心理學實驗方法的討論。」不過他剛開始的時候懷疑這種共同寫作的方法行不通，「在我和僅僅五位作者共同完成論文的時候，都時常想如果人更少的話效率會更高。」

　　為了順利成文，萊肯斯從討論中提取了要點放在一個新的谷歌文檔里作為論文的基礎。

　　「這份文檔的演變過程讓人難以置信，人們添加、刪除再添加，旁觀者又提出新的看法。這種模式奏效了。人們願意承擔特定工作，比如修改參考文獻、檢查段落和標點的問題。當我們不得不壓縮文章的時候，一些作者化身食人魚消滅掉了一切不必要的內容。」萊肯斯說。

　　雖然作者們精誠合作，但留給萊肯斯的任務還是很多——尤其是在萊肯斯需要完成常規工作的情況下。他只能利用空閑時間來完成任務，比如早上或者夜間。

　　「有那麼一瞬間我覺得我要瘋了。」萊肯斯說。

　　在論文完稿的過程中，有幾個參與者選擇了退出，部分原因是他們不同意論文中的部分內容。最終87個人同意成為論文的共同作者。

　　修訂閾值派的回應

　　

　　萊肯斯等人的論文建議完全丟棄「統計顯著性」的標籤。作為替代，研究者應該描述並解釋它們的實驗設計和數據處理方式，包括所選取的統計閾值。「有時候顯著性水平可以是0.05，有時候是0.005，或者是0.10。」萊肯斯說。

　　對於萊肯斯的觀點，主張修訂顯著性閾值的科學家們也有所回應。

　　原論文《重新定義統計顯著性》的第一作者是德克薩斯農工大學的瓦倫·約翰遜（Valen Johnson），他認為萊肯斯的方法行不通。「讓每篇論文的作者決定他們自己的顯著性水平是不可行的，」他在寫給《科學》的郵件中寫道，「理由很簡單，沒有足夠的資源對每個被提出的顯著性閾值進行詳細、公證的審查。」同時也不清楚「證明α的合理性」在實際中如何操作，論文的共同作者、阿姆斯特丹大學的埃里克－簡·瓦根馬克斯（Eric-Jan Wagenmakers）補充道。

　　另一位重要的共同作者態度更為溫和。在弗吉尼亞大學的心理學家布萊恩·諾塞克（Brian Nosek）看來，「萊肯斯那篇論文中傳達出的信息非常好，實際上不是對我們的論文的批判。」諾塞克說《重新定義統計顯著性》這篇論文傳達的關鍵信息非常有限：目前0.05的顯著性閾值讓人們高估了證據的可信度，如果要降低這一閾值，0.005是一個合理的替代值。

　　「其他對顯著性問題的建議，比如拋棄所有的顯著性檢驗、對所選取的α做出解釋、結合貝葉斯推論、更多的重複實驗等等，也都是非常不錯的改進。」諾塞克說。

　　=

小辣辣 · 發表於 2018-3-7 11:16

這一場辯論還會繼續，不過地點可能不會是谷歌文檔了。谷歌文檔中發生的故事「令人驚嘆」但效率並不是很高，萊肯斯說，「當你的時間有限時，你不應該這麼做。」

　　「討論很激烈。我們確實因為無法取得統一的意見，放棄掉了一些論點。如果只有我一個作者，我會把那些加進去的。」萊肯斯補充說道。

　　看來關於統計顯著性，能討論的還有很多。而每一次討論，都可能是完善科學方法的星星之火。

　　審校：vicko238、Ent

　　編譯來源：Science, Nearly 100 scientists spent 2 months on Google Docs to redefine the p-value. Here』s what they came up with.

　　歡迎個人轉發到朋友圈

　　本文來自果殼網

一篇要求重新定義P值的論文，炸起科學界百人論戰

瀏覽過的版塊