|
文/老余 由于貝葉斯思想實在太過重要,本篇我們繼續(xù)。 但請放心,與之前的文章一樣,本篇也不會很燒腦,甚至連貝葉斯公式我都不會寫出來,我只想用最簡單的方式,把它給你講明白。 先問你一個問題: 假如新冠抗原的準確率為99%,而你測出是陽性,這就說明你99%感染了嗎? 這個對不對? 先按下不表。 我們先用貝葉斯眼光看乳腺癌診斷正確率的問題,再反過頭來看新冠抗原的。 比如張三體檢時,醫(yī)生告訴她乳腺癌的檢查呈陽性,且這種檢查的正確率為95%。那張三應不應該相信自己95%的可能性已經患了乳腺癌? 如果不把這個問題搞明白,誰聽到這個都會絕望地雙腿發(fā)軟。 下面,我們用貝葉斯(從結果追溯原因,正是貝葉斯出場的時候)推理,把這個問題分析清楚。 ![]() (一)張三應該感到絕望嗎?且慢,先不要感到絕望! 這事兒其實沒這么簡單,因為這個“95%”只是很局部的數據,要把這事兒全部搞明白,起碼還要弄清楚以下兩點: 1、首先,這種癌癥普遍的患病率是多少(貝葉斯里的先驗概率)? 說白了,就是首先我們要搞清楚自己處于什么樣的宏觀概率里,我查了下全球女性乳腺癌的患病率已經到了0.03%。 ![]() 由此,我們知道在張三沒有體檢前,她有99.97%的概率處在健康人群里,有0.03%的概率處在患病人群里,除此之外,再也沒有其他可能性了(當然,除非她是量子態(tài),是薛定諤的貓)。 ![]() 宏觀概率圖(1) 那張三到底處在哪類人群里呢? 這就需要回到微觀里看檢測結果是否為陽性,且還得看這個檢測對患癌人群及非患癌人群的判斷準確率是多少? 這就牽扯到第二點。 2、檢測的假陰性和假陽性問題 啥是假陰性概率? 就是本來患癌了,但檢測結果卻顯示為陰性誤以為沒有患癌的概率。上面說了,檢測的準確率為95%,也就是100人中,即使有5人患癌,診斷結果卻是陰性。 相反,假陽性就是本來沒有患癌,但檢測結果卻是陽性,誤以為患癌的概率,我們假設這個概率為1%。 現在,我們把問題的全貌歸攏一下:
我們把“2、3”變?yōu)楦庇^的矩陣: ![]() 加上了全貌中的“2、3”后,“宏觀圖1”可變?yōu)椋?/p> ![]() 那在全局里,張三檢測前可能會出現四種情況,這四種情況及其概率為:
請注意,關鍵時刻到了,在沒有檢測前,這四種情況張三必占其一,但現在已知張三是陽性了,所以陰性的可能性就立馬排除掉了,也就是說,張三只可能在“(1)、(3)”中占其一了。 那張三確實患了乳腺癌的概率是多少呢? 這就很簡單也很好理解了,就是“患癌,檢測為陽性”的概率值除以全部為陽性的概率值,即: ——P=患癌,檢測為陽性÷(患癌,檢測為陽性+未患癌,檢測卻為陽性)=0.0285%÷(0.0285%+0.9997%)=2.7%(貝葉斯里叫后驗概率)。 你看,之前,我們認為張三患乳腺癌的概率是95%,基本上快到了板上釘釘的地步了,但實際情況是: ——即使檢測結果為陽性,張三患病的真實概率只有2.7%。 所以不要自己嚇自己,即使那個95%很嚇人。 接下來,我們再看看新冠的情況,如果抗原測試你羊了,且準確率為99%,那你真實已經感染的可能性是多少呢? ![]() (二)新冠抗原的準確率為99%,而你測了是陽性,這就說明你99%感染了嗎?同理,這事兒的全貌也還包括以下兩點: 1、全國,整體的感染率是多少(貝葉斯里的先驗概率)? 我查了相對靠譜的說法是60%以上,那我們就按60%來。 ![]() 在你沒有測試之前,其實我有60%的概率處在這個羊了人群里,有40%的概率處在沒有感染的人群里。 ![]() 概率圖(1) 那你到底處在哪個人群里呢? 我們回到微觀里看假陽性和假陰性。 2、抗原的假陰性和假陽性問題 上面說了,抗原的準確率為99%(也就是說假陰性概率為1%),那假陽性的概率是多少呢?我查了一下,在1%-5%之間,我們就取3%吧。 ![]() 現在,我們復原這個問題的全貌:
![]() 加上了全貌中的“2、3”后,“概率圖1”即可變?yōu)椋?/p> ![]() 在全局里,抗原測試前有四種情況,這四種情況及其概率為:
現在,已知你陽了,所以陰性的可能性就立馬排除掉了,那你確實羊了的概率是多少呢? P=已感染測試為陽性÷(已感染測試為陽性+未感染測試為陽性)=59.4%÷(59.4%+1.2%)=98%。 ——之前我們認為的概率是99%,而真實的概率為98%。 為何新冠與乳腺癌的前后概率相差如此之大,一個幾乎是完全顛覆了,而另一個基本沒變,這是為何? 我們繼續(xù)往下看。 ![]() (三)總結一下因為患乳腺癌的風險相對于新冠來說,是非常小的。 所以,對于女性患乳腺癌來說: 健康人群所占比例遠遠高于患癌比例,這樣一來,健康人群被誤診為陽性的數據就不能被忽視。 由此,在整體患病風險較小的疾病里,如果醫(yī)生給了你一個確診,也請先不要著急不要悲觀,因為這個確診是誤診的概率非常大,即使這個醫(yī)生在專業(yè)上很牛,但他的概率可能會差點意思。 而對于新冠來說: 感染人群所在比例已經非常高,這樣一來,健康人群誤診為陽性的數據就基本可以忽略不計。 由此我們知道,在整體患病風險已經很高的疾病里,如果醫(yī)生遺憾的說你已經確診了,這句話的準確性就非常非常高了,即使這是個庸醫(yī)。 還有一點要引起重視: 雖然張三的患癌概率從誤以為的95%一下子降低到了客觀的2.7%,但乳腺癌的平均患病概率是0.03%,也就是說,張三在正確率為95%的檢查確診后,她的患病風險就變了,從0.03%飆升到了2.7%。 ——增加了90倍。 反過來,當我們看到新聞里說某項疾病的發(fā)病率因為長期吃了什么東西翻了10倍時,也不要慌神,我們得冷靜下來搞清楚,是在多大的基礎概率上翻了10倍。 比如是在億萬分之一的基礎上翻的,那翻10倍基本等于沒翻,有些人就喜歡制造恐慌。 而數據,是最容易得手的工具,沒有之一。 (完) |
|
|