Nature對于統(tǒng)計量和p值的書寫建議
導(dǎo)語
前不久Nature子刊《Nature human behaviour》編輯部發(fā)布了一則編輯部通告(Editorial),嚴(yán)肅討論了p值的內(nèi)涵以及解釋方法,旨在呼吁人們重視科學(xué)研究結(jié)論的可重復(fù)性問題。
原文附在最后面,下面是原鏈接
https://www.nature.com/articles/s41562-023-01586-w

以下是采用claude2進行翻譯總結(jié)后的內(nèi)容:
翻譯部分
顯著性檢驗的要點
我們發(fā)表的大多數(shù)采用零假設(shè)顯著性檢驗的實證研究文章,研究者主要依賴P值來建立他們發(fā)現(xiàn)的科學(xué)或?qū)嶋H意義。然而,單獨的統(tǒng)計顯著性不能提供對科學(xué)或政策意義進行推斷所需的足夠信息。因此,我們要求作者除P值外,還需提供更多信息——本社論將解釋我們的要求。
統(tǒng)計顯著性和P值在過去十年受到廣泛討論。2016年,美國統(tǒng)計學(xué)會發(fā)表了關(guān)于P值的聲明,旨在消除人們對其使用和解釋的一些誤解。盡管人們對P值濫用的關(guān)注有所提高,我們?nèi)匀活l繁地遇到反映美國統(tǒng)計學(xué)會聲明試圖糾正的那些誤解的研究。?
在我們收到的大多數(shù)采用零假設(shè)顯著性檢驗的實證研究中,作者僅報告統(tǒng)計檢驗、自由度、檢驗值和P值。在某些情況下,我們只看到P值,沒有其他信息。這極為有限的信息可能具有誤導(dǎo)性,在樣本量非常大的研究中則完全無意義(過度設(shè)計的研究或樣本量非常大的研究可能會識別出具有統(tǒng)計學(xué)顯著性但影響微小的效應(yīng))。因此,我們要求作者同時報告效應(yīng)量和置信區(qū)間。 對零假設(shè)顯著性檢驗統(tǒng)計信息的報告通常應(yīng)采用以下形式:統(tǒng)計量(自由度)= 值;P = 值;效應(yīng)量統(tǒng)計量= 值;百分比置信區(qū)間 = 值。
將0.05的P值門檻確定為顯著的閾值是由公約建立的任意閾值。但是,如果作者選擇使用零假設(shè)顯著性檢驗,我們要求他們遵守這個公約(除非他們在研究前預(yù)注冊了不同的alpha水平,并對其選擇提供了可靠的理由)。諸如“邊界顯著”和“僅未達到統(tǒng)計學(xué)顯著性”的P值高于0.05的傳統(tǒng)或預(yù)先指定閾值的陳述,后接理論解釋就像已拒絕零假設(shè)一樣,這些都是有誤導(dǎo)性的。超過傳統(tǒng)或預(yù)先指定閾值的P值簡單地說就不是統(tǒng)計學(xué)上顯著的,我們要求作者據(jù)此報告。
我們在提交的手稿中遇到的最常見問題之一是,作者在沒有使用正式的統(tǒng)計學(xué)差異檢驗的情況下,根據(jù)統(tǒng)計顯著性水平進行不同研究或條件間差異的推斷。在2006年的一篇文章中,Gelman和Stern提供了令人信服的解釋,說明“顯著性與不顯著性之間的差異本身在統(tǒng)計上也不顯著”。使用顯著性水平來比較效應(yīng)估計是不適當(dāng)?shù)?我們要求作者對他們爭論的任何差異提供統(tǒng)計證據(jù)。
如果作者進行了多重比較,我們希望他們會使用適合其數(shù)據(jù)和進行的比較數(shù)量的調(diào)整或校正形式(例如,Bonferroni、Benjamini-Hochberg、家族錯誤率或假發(fā)現(xiàn)率)。這種校正是分析的一個關(guān)鍵部分(不僅僅是穩(wěn)健性檢查),所有結(jié)果解釋都應(yīng)基于校正后的P值。
我們根據(jù)研究問題的重要性、其跨學(xué)科吸引力的廣度和證據(jù)的實質(zhì)性選擇研究進行同行評審和發(fā)表,而不是根據(jù)其結(jié)果。這意味著我們會發(fā)表得出主要為空結(jié)果的研究。 對報告統(tǒng)計上為空結(jié)果的研究,我們要求作者不要將證據(jù)缺乏解釋為證據(jù)不存在。沒有統(tǒng)計檢驗可以證明效應(yīng)不存在?!癤與Y之間沒有關(guān)聯(lián)”或“X對Y無效果”之類的陳述不準(zhǔn)確,最好修正為“[沒有或很少]有可信的X與Y之間存在關(guān)聯(lián)的證據(jù)”或“[沒有或很少]有可信的證據(jù)表明X影響Y”。
(原文:There is no statistical test that can demonstrate the absence of an effect.Statements such as there is no association between X and Y or X has no effect on Y?are inaccurate,and are best revised to read '[no or little] credible evidence of an association between X and??Y' or?'[no or little] credible evidence that X affects Y.)
無論主要結(jié)果還是次要結(jié)果為空,如果在文章中對這些結(jié)果進行了解釋,我們要求作者使用適當(dāng)?shù)慕y(tǒng)計方法來解釋它們(例如,貝葉斯因子或等價性測試)。
功效分析對所有研究都至關(guān)重要,無論結(jié)果的方向如何。在功效不足的研究中得出的空結(jié)果無法解釋。如果研究人員沒有使用正式方法預(yù)先指定樣本量,而他們的研究的主要結(jié)果為空,我們要求他們執(zhí)行功效靈敏度分析。這應(yīng)證明他們的統(tǒng)計檢驗功效,跨越可能的效應(yīng)量范圍,包括最小的理論上或?qū)嶋H上有意義的效應(yīng)量。
有許多呼吁讓統(tǒng)計顯著性退休或完全擺脫零假設(shè)顯著性檢驗。然而,在這發(fā)生之前,重要的是確保發(fā)表的使用零假設(shè)顯著性檢驗的研究能夠進行統(tǒng)計上有效的推斷,并進行適當(dāng)?shù)慕忉尅?/p>
總結(jié)部分
1. 統(tǒng)計顯著性和P值不能單獨判斷結(jié)果的科學(xué)或?qū)嶋H意義,應(yīng)結(jié)合效應(yīng)量和置信區(qū)間進行綜合判斷。
2. P值不應(yīng)過度解釋為“邊界顯著”,需要遵守事先確定的顯著性判斷標(biāo)準(zhǔn)。?
3. 不能僅根據(jù)統(tǒng)計顯著性水平判斷不同研究或條件間的差異,需要進行正式的差異檢驗。
4. 應(yīng)對多重比較進行適當(dāng)?shù)男U{(diào)整,基于調(diào)整后的P值進行解釋。
5. 不能將空結(jié)果解釋為沒有效應(yīng),應(yīng)謹(jǐn)慎陳述為缺乏證據(jù)而非不存在。
6. 對空結(jié)果應(yīng)使用貝葉斯因子或等價性檢驗等方法進行解釋。
7. 研究設(shè)計中應(yīng)考慮功效分析,空結(jié)果可能因功效不足而無法解釋。
8. 統(tǒng)計顯著性仍被廣泛使用,需要確保其應(yīng)用和解釋具有統(tǒng)計效度。

綜上,作者的核心觀點是統(tǒng)計檢驗結(jié)果的解釋應(yīng)審慎嚴(yán)謹(jǐn),不能過度依賴P值;應(yīng)采取多種措施提高研究結(jié)果的可靠性。未來可進一步探討替代統(tǒng)計顯著性檢驗的其他可靠方法。