电竞比分网-中国电竞赛事及体育赛事平台

分享

研究數(shù)據(jù)統(tǒng)計(jì)的大變天?854位科學(xué)家在Nature頭條聲討p值的統(tǒng)計(jì)意義

 百味科研芝士 2019-04-13

本文首發(fā)于 ”百味科研芝士“ 微信公眾號(hào),轉(zhuǎn)載請(qǐng)注明:百味科研芝士,F(xiàn)ocus科研人的百味需求

一般來(lái)說(shuō),我們的學(xué)術(shù)研究里,需要統(tǒng)計(jì)學(xué)意義,以證實(shí)數(shù)據(jù)在實(shí)驗(yàn)/對(duì)照組的差異,當(dāng)p<0.05或者p<0.01,就可認(rèn)為該研究有統(tǒng)計(jì)意義,該研究在實(shí)驗(yàn)條件下,出現(xiàn)了不一樣的情況。那么,一些研究的p>0.5,就可認(rèn)為無(wú)差異,事實(shí)也是這樣?

一、Nature頭條:

2019320日,Nature雜志官網(wǎng)發(fā)表了一篇名為《科學(xué)家們起來(lái)反對(duì)統(tǒng)計(jì)學(xué)意義》(Scientists rise up against statistical significance)的文章,并以封面頭條掛在雜志官網(wǎng)。該文列出了854名已公開(kāi)表明支持態(tài)度的科學(xué)家名單,并號(hào)召科學(xué)家放棄以p值為判斷標(biāo)準(zhǔn)的統(tǒng)計(jì)學(xué)意義。

(《科學(xué)家們起來(lái)反對(duì)統(tǒng)計(jì)學(xué)意義》的前三位作者)

一直以來(lái),前人的經(jīng)驗(yàn)告訴我們,統(tǒng)計(jì)學(xué)上無(wú)顯著性的結(jié)果并不能證明零假設(shè)(實(shí)驗(yàn)/對(duì)照組之間沒(méi)有差異或治療對(duì)某些測(cè)量結(jié)果無(wú)影響)。事實(shí)上,統(tǒng)計(jì)上顯著的結(jié)果也沒(méi)有證明某些其他假設(shè)。因此,作者以該文呼吁科學(xué)家不可繼續(xù)成為這些誤解的犧牲品。

 

該文一出,瞬間引爆整個(gè)學(xué)術(shù)界。

活躍在某特的科學(xué)家相繼表態(tài),有贊同,有質(zhì)疑,也有辯證看待,更稱“p值已成為干預(yù)著研究的意義解讀的暴君”。

 

走在十字路口的今天,對(duì)于p值的討論也愈發(fā)激烈。一方面,p值仍然被一些研究者錯(cuò)誤地作為衡量臨床效應(yīng)大小的標(biāo)準(zhǔn),而事實(shí)上兩者并沒(méi)有什么一一對(duì)應(yīng)的關(guān)系;另一方面,樣本量對(duì)p值的影響極大,對(duì)于擁有幾十萬(wàn)級(jí)別以上的樣本量的研究而言,獲得一個(gè)p<0.05的結(jié)果也恐怕也只是走個(gè)流程。

(關(guān)于P值的爭(zhēng)議)

幾個(gè)大雜志期刊也沒(méi)有閑著,紛紛加入p值的談?wù)摦?dāng)中。從引用的情況來(lái)看,Nature并未當(dāng)天的首發(fā),但是鑒于Nature的地位,成了引發(fā)討論的關(guān)鍵爆點(diǎn)。

 

可見(jiàn),關(guān)于p值的討論已在學(xué)術(shù)界掀起大浪。

二、P值的爭(zhēng)議史

而事實(shí)上,關(guān)于P值的爭(zhēng)議,在1988年,一篇《The end of p value》就已開(kāi)始對(duì)其提出質(zhì)疑。

 

直至2016年,一篇發(fā)表在JAMA的基于超過(guò)1200萬(wàn)篇MEDLINE摘要和80萬(wàn)篇PubMed CentralPMC)全文(包含摘要)的自動(dòng)文本挖掘的文獻(xiàn),才比較系統(tǒng)地去闡述了過(guò)去25年(1990-2015年)生物醫(yī)學(xué)文獻(xiàn)中的p值變化。

 

研究者發(fā)現(xiàn),從1990年到2014年,MEDLINE摘要中p值出現(xiàn)比例已從7.3%上升到15.6%,其中隨機(jī)對(duì)照試驗(yàn)首位,摘要中報(bào)告p值的比例達(dá)54.8(95CI, 54.0 - 55.6),臨床試驗(yàn)其次,;而Meta分析類增長(zhǎng)速度最快,與1990年的情況相比,幾乎增加了三倍,達(dá)到35.7(95CI, 34.5-37.0)。此外,有p值的摘要和全文中,96%會(huì)至少報(bào)告1個(gè)“統(tǒng)計(jì)學(xué)顯著”的結(jié)果。

可見(jiàn),隨著時(shí)間的推移,越來(lái)越多的科學(xué)論文在研究結(jié)果中報(bào)告了p值,且出現(xiàn)頻率最高的是“p<0.05p<0.001。

 

緊接著,2016年,針對(duì)p值的過(guò)分強(qiáng)調(diào),美國(guó)統(tǒng)計(jì)學(xué)會(huì)(ASA)發(fā)布了一個(gè)關(guān)于統(tǒng)計(jì)意義和p值的聲明,但是,這只是份聲明,并無(wú)實(shí)際操作空間。

當(dāng)ASA的聲明淪為一張廢紙,而P值目前存在的問(wèn)題尚未解決,因此,一個(gè)簡(jiǎn)單粗暴的方法:降低我們傳統(tǒng)認(rèn)為的“顯著性水平”——P<0.05,被提上日程。20177月,Nature就把顯著性水平從P<0.05降到P<0.005對(duì)受訪者進(jìn)行調(diào)查時(shí),發(fā)現(xiàn)表示支持的比例竟高達(dá)69%

似乎大伙并不抗拒這樣的改變。但是,不可否認(rèn)的是,持反對(duì)的比例還是高達(dá)31%。至于理由:一是研究成本,顯著性水平的降低會(huì)增大研究所需樣本量;二是辯證看待,鑒于科學(xué)研究的多元化屬性,認(rèn)為單一P值評(píng)論研究的價(jià)值會(huì)阻礙研究的進(jìn)展

 

當(dāng)然,還有一些更為極端的做法。,如Political AnalysisBasic and Applied Social Psychology雜志直接宣布禁用p值,可當(dāng)被Nature反問(wèn)“沒(méi)了P值怎么辦?”時(shí),雜志社也只有無(wú)奈。

順著時(shí)間點(diǎn),回到Nature頭條。該文發(fā)現(xiàn),當(dāng)區(qū)間估計(jì)包括嚴(yán)重的風(fēng)險(xiǎn)增加時(shí),得出認(rèn)為統(tǒng)計(jì)上不顯著的結(jié)果的無(wú)關(guān)聯(lián)結(jié)論是荒謬的。聲稱這些結(jié)果與顯示相同觀察效果的早期結(jié)果形成對(duì)比同樣荒謬。然而,這些常見(jiàn)的做法表明,依賴統(tǒng)計(jì)顯著性的閾值會(huì)誤導(dǎo)我們。

該文還表示,這種類似的錯(cuò)誤很普遍。對(duì)數(shù)百篇文章的調(diào)查發(fā)現(xiàn),統(tǒng)計(jì)上不顯著的結(jié)果被解釋為在一半左右表示“無(wú)差異”或“無(wú)影響”。

 

1988年的《The end of p value?》到最近的Nature頭條、854位科學(xué)家聯(lián)合署名的《Scientists rise up against statistical significance》,30年的爭(zhēng)議,到現(xiàn)在都還沒(méi)有一個(gè)大家都認(rèn)可的定論,那么,我們不禁要問(wèn),這些關(guān)于p值的爭(zhēng)議是源于哪,是科學(xué)研究進(jìn)展的需要,還是p值本身?

 

那我們不妨稍回顧下p值本身。

三、p值與假設(shè)檢驗(yàn)、顯著水平的關(guān)系

說(shuō)到p值,就離不開(kāi)假設(shè)檢驗(yàn)、顯著水平(a)。

1. 假設(shè)檢驗(yàn)

以拋硬幣為例。

 

你說(shuō)你的硬幣是公平的,也就是“花”和“字”出現(xiàn)的概率是差不多的。然后,你想和我打賭,而我提出要檢查下你的硬幣到底是不是公平的,萬(wàn)一是兩面“花”怎么辦?電影里面不是經(jīng)常出現(xiàn)這樣的橋段?

 

后來(lái)我們提出了折衷的方案,拋幾次硬幣,看看結(jié)果是不是公平的。

 

扔了兩次,均是“花”朝上,幾率是0.5*0.5=0.25,也屬正常,繼續(xù)扔;后扔了四次,均是“花”朝上,幾率是0.54=0.0625,雖感覺(jué)有點(diǎn)不正常,但不排除是運(yùn)氣,繼續(xù)扔;

 

扔了十次,均是“花”朝上,那我就認(rèn)為你這枚硬幣很有可能不是公平的

 

這就是假設(shè)檢驗(yàn)

你提出假設(shè):說(shuō)你的硬幣是公平的

我提出要檢驗(yàn)?zāi)愕募僭O(shè):扔十次,看實(shí)驗(yàn)的結(jié)果是不是和你的假設(shè)相符。

 

2. p

接著上面來(lái)。為了完成假設(shè)檢驗(yàn),需要先定義一個(gè)概念:p。

 

根據(jù)上面的描述,這里假設(shè)檢驗(yàn)的思路就是:

假設(shè):硬幣是公平的

檢驗(yàn):認(rèn)為假設(shè)是成立的,然后扔十次,看結(jié)果與假設(shè)是否相符

 

反復(fù)扔硬幣應(yīng)該符合二項(xiàng)分布(這就不解釋了),也就是:

其中,n代表扔硬幣的次數(shù),u代表朝上的概率。那么,在我們認(rèn)為硬幣是公平的前提下,扔10次硬幣應(yīng)該符合以下分布:

在假如硬幣是公平的情況下的分布圖上,我扔了十次之后得到的結(jié)果是,有八次正面:

這個(gè)時(shí)候有個(gè)數(shù)學(xué)大佬就出來(lái)定義了一個(gè)稱為P值(p-value)的概念:把八次正面的概率,與更極端的九次正面、十次正面的概率加起來(lái):

得到的就是(單側(cè)P值):

其實(shí),出現(xiàn)兩次正面、一次正面、零次正面的概率也是很極端的,加起來(lái),就是雙側(cè)P值:

3. 為什么要把更極端的情況加起來(lái)?

根據(jù)扔硬幣這個(gè)例子,可能你會(huì)覺(jué)得,我知道八次正面出現(xiàn)不正常就行了,干嘛要把九次、十次加起來(lái)?

 

我覺(jué)得有這么一個(gè)現(xiàn)實(shí)原因,比如我要扔1000次硬幣來(lái)測(cè)試假設(shè)是否正確。

根據(jù)中心極限定理,我們知道,可以用正態(tài)分布來(lái)近似,如得到了530次正面,用正態(tài)分布來(lái)計(jì)算就比較簡(jiǎn)單。

 

但是,對(duì)于正態(tài)分布,我沒(méi)有辦法算單點(diǎn)的概率(連續(xù)分布單點(diǎn)概率為0),我只能取一個(gè)區(qū)間來(lái)算極限,所以就取530以及更極端的點(diǎn)組成的區(qū)間:

事實(shí)上,P值是我們通過(guò)轉(zhuǎn)換得到的一個(gè)值,在假設(shè)檢驗(yàn)中,我們得到的t值,z值,F值都可以轉(zhuǎn)換為P,比如Z=1.96,我們就可以通過(guò)查表或者統(tǒng)計(jì)軟件計(jì)算得到對(duì)應(yīng)的P=0.05。那么P值是什么意思呢?用書上的定義來(lái)講,P值是當(dāng)原假設(shè)為真的時(shí)候,得到當(dāng)前結(jié)果以及更極端結(jié)果的概率。

 

另外,關(guān)于P值,說(shuō)明下:取單側(cè)還是雙側(cè),取決于你的應(yīng)用;什么叫做更極端的點(diǎn),也取決于你的應(yīng)用。

4. 顯著水平

繼續(xù)拋硬幣。扔10次硬幣,要是出現(xiàn)7次正面,可以認(rèn)為“硬幣是不公平的”,還是9次正面之后我才能確認(rèn)“硬幣是不公平的”?這是一個(gè)較為主觀的標(biāo)準(zhǔn)

 

我們一般認(rèn)為p≤005,就可以認(rèn)為假設(shè)是不正確的。因此,0.05這個(gè)標(biāo)準(zhǔn)就是顯著水平,當(dāng)然選擇多少作為顯著水平也是主觀的。

 

比如,上面的扔硬幣的例子,如果取單側(cè)P值,那么根據(jù)我們的計(jì)算,如果扔10次出現(xiàn)9次正面:

我們可以認(rèn)為剛開(kāi)始的假設(shè)錯(cuò)的很“顯著”,也就是“硬幣是不公平的”。

若扔10次,出現(xiàn)8次正面:

事實(shí)上,這個(gè)和我們的顯著水平是一樣的啊,我們也可拒絕假設(shè),只是沒(méi)有那么“顯著”了。

 

再舉個(gè)例子:

在這個(gè)右側(cè)檢驗(yàn)里,如果α水平設(shè)定為0.05,那么區(qū)域B面積為0.05。所以在這個(gè)假設(shè)檢驗(yàn)里,若原假設(shè)為真,則我們一次抽樣結(jié)果只有5%的可能性落在區(qū)域B里,而依據(jù)小概率事件,我們可認(rèn)為這樣的小概率結(jié)果不會(huì)在一次抽樣中發(fā)生如果它發(fā)生了,那么就說(shuō)明我們所檢驗(yàn)的樣本并不來(lái)自于這個(gè)總體,所以我們拒絕原假設(shè)。

 

當(dāng)P<α,表達(dá)的是,在一次抽樣中出現(xiàn)當(dāng)前結(jié)果及更極端結(jié)果的可能性比我們認(rèn)為的在一次抽樣中不可能發(fā)生的小概率事件的概率更小,即我們的觀察結(jié)果比我們?cè)O(shè)定的拒絕程度更加極端。因此,在樣本量不變的情況下,P值比α水平越小,我們?cè)接行判目烧J(rèn)為這個(gè)樣本不屬于原假設(shè)分布代表的總體,則越有信心拒絕原假設(shè)。

(本文的第三部分主要引用了馬同學(xué)的“如何理解假設(shè)檢驗(yàn)、P值?”和胡傳鵬的“統(tǒng)計(jì)知識(shí) | 談?wù)?span lang="EN-US">P值和α水平”)

四、造成統(tǒng)計(jì)意義的誤解,是p值,還是我們自身?

事實(shí)上,很多人會(huì)把P值當(dāng)作我們拒絕原假設(shè)的犯錯(cuò)概率,但其實(shí)拒絕原假設(shè)犯錯(cuò)屬于一類錯(cuò)誤。錯(cuò)誤的概率是我們的α,P值只是我們根據(jù)一次抽樣結(jié)果計(jì)算出來(lái)的值。這就好比我們?cè)O(shè)定超速的標(biāo)準(zhǔn)為120km/h,而我們探測(cè)到n輛汽車的平均時(shí)速為110km/h,但我們不能因此就認(rèn)為超速標(biāo)準(zhǔn)為110km/h。

 

2016年發(fā)表在JAMA的文章中,研究者分析了MEDLINE摘要和報(bào)告中報(bào)道的p值,在1990年至2015年的PMC文章中,幾乎所有的摘要和p值的文章報(bào)告了統(tǒng)計(jì)學(xué)上顯著的結(jié)果。該文指出,文章應(yīng)該包括置信區(qū)間和不確定性指標(biāo),而不是報(bào)告孤立的p值。

 

緊接著,“Don’t” Is Not Enough.The American Statistician : Statistical Inference in the 21st Century: A World Beyond p < 0.05事實(shí)上,關(guān)于p值,該文給出了以下幾點(diǎn):

·         不要僅根據(jù)關(guān)聯(lián)或效應(yīng)是否具有統(tǒng)計(jì)學(xué)意義(即p值超過(guò)某個(gè)閾值,如p<0.05)得出結(jié)論。

·         不要僅僅因?yàn)樗哂薪y(tǒng)計(jì)意義而認(rèn)為存在關(guān)聯(lián)或效應(yīng)。

·         不要僅僅因?yàn)樗鼪](méi)有統(tǒng)計(jì)學(xué)意義而認(rèn)為缺乏關(guān)聯(lián)或效應(yīng)。

·         不要相信你的p值給出了機(jī)會(huì)單獨(dú)產(chǎn)生觀察到的關(guān)聯(lián)或效應(yīng)或者你的檢驗(yàn)假設(shè)為真的概率的概率。

·         基于統(tǒng)計(jì)顯著性(或缺乏統(tǒng)計(jì)顯著性),不要對(duì)科學(xué)或?qū)嵺`重要性做任何結(jié)論。

知道什么與p值無(wú)關(guān)確實(shí)是必要的,但這還不夠。

Image result for p value misunderstand

(圖源https://larspsyll./2013/03/19/misunderstanding-the-p-value-here-we-go-again/

而在本文重點(diǎn)關(guān)注的Nature關(guān)于p值討論的頭條,先是表達(dá)了幾個(gè)意思:一是

以單一p值為判斷標(biāo)準(zhǔn)的統(tǒng)計(jì)意義對(duì)科學(xué)界和那些依賴科學(xué)建議的人造成了很大的危害;二是在確定其確定性的同時(shí),也應(yīng)在每項(xiàng)研究中從多個(gè)角度考慮不確定性,以得出更為客觀的結(jié)論。三是丟棄認(rèn)知偏見(jiàn),把結(jié)果分成“統(tǒng)計(jì)顯著性”和“統(tǒng)計(jì)非顯著性”,這不是一種正確的科學(xué)研究思維。

 

同時(shí)指出,期刊編輯們的基于p值的評(píng)判標(biāo)準(zhǔn),鼓勵(lì)研究人員選擇一些對(duì)于某些期望的結(jié)果具有統(tǒng)計(jì)顯著性(僅為發(fā)表文章用途),或者對(duì)于不期望的結(jié)果沒(méi)有統(tǒng)計(jì)顯著性,如藥物的潛在副作用,從而導(dǎo)致研究無(wú)意義的誤判。

 

Related image

(圖源https://www./blog/2016/08/02/where-have-all-the-statisticians-gone-big-data-lessons-for-us-all/

 

而關(guān)于退休的統(tǒng)計(jì)意義,作者希望是個(gè)什么樣的?

 

第一,希望作者的方法部分和數(shù)據(jù)列表更加詳細(xì)和細(xì)致,強(qiáng)調(diào)估計(jì)和它們的不確定性。例如通過(guò)明確地討論它們的間隔的下限和上限。當(dāng)報(bào)告P值時(shí),它們將以合理的精度給出(例如,P= 0.021P= 0.13),而不是二元不等式(P<0.05P>0.05)。解釋或發(fā)布結(jié)果的決定不會(huì)基于統(tǒng)計(jì)閾值。人們花在統(tǒng)計(jì)軟件上的時(shí)間會(huì)更少,而且更多的時(shí)間在思考。

 

第二,退出統(tǒng)計(jì)學(xué)意義,監(jiān)測(cè)文獻(xiàn)中的統(tǒng)計(jì)濫用應(yīng)該是科學(xué)界的一個(gè)持續(xù)優(yōu)先事項(xiàng)。濫用統(tǒng)計(jì)意義對(duì)科學(xué)界和依賴科學(xué)建議的人造成了很大的傷害。p值,區(qū)間和其他統(tǒng)計(jì)測(cè)量都有它們的位置,但現(xiàn)在是退休統(tǒng)計(jì)意義的時(shí)候了。

 

最后,作者強(qiáng)調(diào),依據(jù)退休統(tǒng)計(jì)意義的呼吁,想聽(tīng)到的是,是或否的決定。但對(duì)于監(jiān)管,政策和商業(yè)環(huán)境中經(jīng)常需要的選擇,基于所有潛在后果的成本,收益和可能性的決策總是優(yōu)于僅基于統(tǒng)計(jì)顯著性的決策。

 

所以,你會(huì)做出哪個(gè)決定,是,OR否?

Related image

(圖源https://www./statistical-significance-for-cro/

 

參考資料:

1. Scientists rise up against statistical significance.Nature 567, 305–307 (2019)

2. The end of the p value?. Br Heart J,1988;60:177-80

3. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015.JAMA. 2016 Mar 15;315(11):1141-8

4. https://www./news/psychology-journal-bans-p-values-1.17001

5. https:///journals/jama/article-abstract/2676503

6. https://mp.weixin.qq.com/s/tmlaB4nwK0EPxaAmsIVScA

7. https://mp.weixin.qq.com/s/McChzQFLV_2XXOZp11djGw

8. Redefine or justify? Comments on the alpha debate.Psychon Bull Rev. 2018 Sep 27

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多