电竞比分网-中国电竞赛事及体育赛事平台

分享

概率的理解和應(yīng)用

 閑之尋味 2017-05-02

“我有沒(méi)病,跟世界人民有毛關(guān)系?”人們看到這話(huà),有的覺(jué)得是概率問(wèn)題,有的以為情緒發(fā)泄。同樣的文字有不同的解讀,這取決于你理解的基礎(chǔ)。概率也是這樣,有的認(rèn)為是實(shí)用的利器,有的以為是數(shù)學(xué)游戲,之所以這樣,那是你對(duì)概率的概念理解不同。初等概率其實(shí)很簡(jiǎn)單,公式和推理不過(guò)是中學(xué)數(shù)學(xué),經(jīng)典的例子不外乎扔鋼蹦擲骰子摸彩球。人人讀后都以為懂了,其實(shí)很多人考了高分后都沒(méi)入門(mén)。這篇從概率門(mén)前開(kāi)始介紹。

科學(xué)盛行后,大家認(rèn)為客觀的存在,以前上帝是知道的,現(xiàn)在我們也能確定的學(xué)問(wèn)叫科學(xué)。概率應(yīng)用于這種全能全知的想法之外。張三有沒(méi)有病,一盒彩球中我摸到什么色,這確定的事實(shí),是上帝知道我不知道的。但如果我有某些相關(guān)的信息,雖然不能以此確定張三的病,球的色,能否以此估計(jì)個(gè)可能性?認(rèn)為這工作有意義的,叫這可能性的數(shù)值P為概率。概率P(A)是對(duì)事件A發(fā)生可能性估計(jì)的一個(gè)測(cè)度,它是從01中的一個(gè)實(shí)數(shù)值,數(shù)值越大可能性越大。

這個(gè)具體的數(shù)值是多少?關(guān)系到你對(duì)這種“可能性”量度的看法,賭徒是從重復(fù)情況發(fā)生頻率的比率來(lái)定義的,律師則從對(duì)證據(jù)信念的賠率來(lái)確定的,你還可以從其他角度來(lái)定義這個(gè)測(cè)度函數(shù)。就是說(shuō)在原則上,集合中事件A具體的概率測(cè)度P(A)可以有不同的定義方法,只要P(A)=0解讀成邏輯上的false,即事件A絕不可能,1解釋成true,即事件A絕對(duì)是可能,都可以稱(chēng)為概率。不管怎么定義的概率,在集合測(cè)度的性質(zhì)下(空集零測(cè),獨(dú)立事件概率相加,無(wú)窮并集事件的概率半可加性),都滿(mǎn)足一系列的概率關(guān)系式,包括貝葉斯公式,這是現(xiàn)代的概率論的提法。

這樣不明確地規(guī)定的概率測(cè)度值,在實(shí)踐上有什么意義?首先,它們大小的比較,符合人們對(duì)可能性比較的認(rèn)知。這是它有用的基礎(chǔ)。不管你信不信概率,你在日常中無(wú)不應(yīng)用可能性大小的概念,來(lái)判斷事件的真實(shí)性,以此決定下一步行動(dòng)。血檢告訴你,不大可能患癌還是很有可能,對(duì)你做不做活檢,甚至開(kāi)不開(kāi)刀關(guān)系重大,概率是通過(guò)具體數(shù)值是9%或是90%,更精細(xì)地告訴你這個(gè)可能性的大小。其次,概率的公式聯(lián)系起不同事件間概率量度的數(shù)值,只要你認(rèn)可已知的概率,以公式計(jì)算出來(lái)的概率則是一種同樣可靠的估計(jì),這是數(shù)學(xué)證明所保障的,與任何數(shù)學(xué)的計(jì)算是同一回事。它是在邏輯上保證概率計(jì)算是可信的基礎(chǔ)。所以你只要相信概率對(duì)實(shí)踐有用,你就可以相信貝葉斯公式計(jì)算結(jié)果對(duì)實(shí)踐有用,除非你用錯(cuò)了公式。

既然概率的測(cè)度值有不同的定義方法,到底哪種靠譜?歷史上把賭徒的方法稱(chēng)為客觀概率,或頻率派,律師的方法為主觀概率或貝葉斯派。實(shí)際上這些名稱(chēng)都有誤導(dǎo),所謂的客觀,隱含著未言明的實(shí)驗(yàn)條件假設(shè),所謂的主觀并非是任性的假設(shè),所謂的貝葉斯派不是別派不信貝葉斯公式,只是它把貝葉斯的理念推往極致。它們之所以靠譜,都是把這種不確定的猜測(cè),以至關(guān)身家性命的金錢(qián)的賠率和官司的勝負(fù)來(lái)作賭,這是受到實(shí)踐檢驗(yàn)的。它們定義的概率數(shù)值都與掌握的信息有關(guān)。對(duì)頻率派來(lái)說(shuō)這個(gè)信息越符合實(shí)際,它估計(jì)的數(shù)值越靠譜,對(duì)貝葉斯派來(lái)說(shuō),這個(gè)信息越是具體,推斷也越符合事實(shí)。無(wú)論如何,當(dāng)同樣的知識(shí)信息被充分正確利用后,這兩個(gè)數(shù)值是一致的。

那么“我有沒(méi)病,跟世界人民有什么關(guān)系?”如果沒(méi)有更多信息,只知道統(tǒng)計(jì)世界人民有0.1%的人得這病,你就有0.1%的可能性中標(biāo),這就是你得病的基礎(chǔ)概率。

不信的人認(rèn)為這估計(jì)沒(méi)意義,把張三放在世界人群中考慮,按統(tǒng)計(jì)他生x病的概率是0.1%,同一個(gè)的他,放在他10個(gè)有2個(gè)中標(biāo)的基友中,患病率則是20%. 你說(shuō)哪個(gè)是真正的概率?

這對(duì)概率的理解一開(kāi)始就錯(cuò)了,沒(méi)有什么絕對(duì)真理的確定概率,一切的概率都是相對(duì)于所知的信息作出的估計(jì)。當(dāng)你只有對(duì)世界人群的統(tǒng)計(jì)知識(shí),你只能得知0.1%的可能,你有他基友的信息,你就能得知20%的可能。你都有這兩者,心中有數(shù)的就看你怎么用,越是靠近你的實(shí)際情況就越精確。不同的已知信息,決定不同的概率值。只要信息是對(duì)的。這些不同的數(shù)值都是對(duì)的,這可以用統(tǒng)計(jì)來(lái)驗(yàn)證它們符合各自的信息。如果信息不盡可信,你又知道這信息可信程度的概率,你也能用概率公式作出進(jìn)一步的估計(jì)。

你可能覺(jué)得這很可笑,同一個(gè)問(wèn)題怎么會(huì)有兩個(gè)不同的正確答案。月薪1萬(wàn),你猜他全交給老婆是多少?1萬(wàn)是已知這信息的答案,如果他還有獎(jiǎng)金1千呢?如果他先給了小三2千呢?不同的信息得出不同的猜測(cè)數(shù)量,概率值就是對(duì)不確定問(wèn)題,根據(jù)已知的信息作出靠譜的猜測(cè)。

那么這是主觀的,不是還有客觀概率?這兩個(gè)術(shù)語(yǔ)的內(nèi)涵,很多人也理解錯(cuò)了,主觀不是我和你想法不一樣,而是強(qiáng)調(diào)這概率是由擁有知識(shí)而定;客觀不是說(shuō)沒(méi)有你的知曉,這真實(shí)可能性也是這個(gè)數(shù),而是說(shuō)基于默認(rèn)的一個(gè)假設(shè),實(shí)驗(yàn)的結(jié)果是這樣的。不存在不依知識(shí)而有的客觀估計(jì),客觀概率先驗(yàn)概率只不過(guò)缺省了這些已知知識(shí)的假設(shè)。平均分布是最簡(jiǎn)單而經(jīng)常被確省的假設(shè)。這只是一種不言而喻的假設(shè)背景知識(shí)。你的知識(shí)越靠近估計(jì)對(duì)象的實(shí)際情況,你的估計(jì)就越精確。如果你什么都不知道,你無(wú)法給出任何估計(jì)。

當(dāng)我們有了檢測(cè)的信息時(shí),如果我們知道這檢測(cè)對(duì)事件的敏感度和特異度,就可以把檢測(cè)前的事件概率與有了這檢測(cè)新信息后的概率,用貝葉斯公式通過(guò)檢測(cè)的性能聯(lián)系起來(lái)。所謂的先驗(yàn)概率不過(guò)是有這新信息前的概率,后驗(yàn)概率是有了檢測(cè)結(jié)果這新信息后同一事件更新的概率,前后之說(shuō)只是相對(duì)于這檢測(cè)信息而言。這便是一切檢測(cè)判斷概率計(jì)算的基礎(chǔ),有了貝葉斯公式我們不必事事再做統(tǒng)計(jì),便能從已知的統(tǒng)計(jì)概率中,通過(guò)檢測(cè)條件和結(jié)果的信息更新估計(jì)的概率。

在醫(yī)療檢測(cè)診斷中,概率的應(yīng)用很多。這里抄一段我收到的美國(guó)血檢陽(yáng)性后,報(bào)告里對(duì)患癌的概率數(shù)據(jù)。這是美國(guó)醫(yī)生建議50歲以上男性每年常規(guī)PSA檢查的報(bào)告。有一些其他檢測(cè)陽(yáng)性結(jié)果的報(bào)告,也附有這類(lèi)的概率估計(jì)給醫(yī)生和病人參考(在美國(guó),病人與醫(yī)生有同等權(quán)利了解自己的健康信息。你年齡段和這次檢測(cè)的%fPAS值落入表中哪個(gè)區(qū)間,把它看作陽(yáng)性B的信息,它告訴你這陽(yáng)性預(yù)示的患癌A概率P(A|B).

In patients with total PSA concentrations of 4-10 ng/ml, the probability of finding prostate cancer on needle biopsy by age in years is:

%fPSA

50-59

60-69

70 or older

0-10%

49%

58%

65%

11-18%

27%

34%

41%

19-25%

18%

24%

30%

> 25%

9%

12%

16%

Other factors may help determine the actual risk of prostate caner in indvidual patients ...... Jerry W. Hussong, MD - Lab. Director

Lab給出的不同情況的陽(yáng)性患病率表,PSA血檢都用統(tǒng)計(jì)得出這12種不同陽(yáng)性結(jié)果的前列腺患癌率不現(xiàn)實(shí)。即便你要統(tǒng)計(jì)如此,如果你想知道,給不在表中的50歲前男人或女人,用測(cè)PSA做初診的患癌率呢?提高機(jī)器性能后,你是否還要再做這么多不同群體的統(tǒng)計(jì)?實(shí)際上只要知道儀器在前列癌對(duì)PSA指標(biāo)的敏感度P(B|A)和特異度P(~B|~A),誰(shuí)都能用文獻(xiàn)報(bào)告中,他所在群體前列腺患癌的統(tǒng)計(jì)比率,算出陽(yáng)性對(duì)他檢測(cè)預(yù)病的準(zhǔn)確率。這表中12種情況是Lab這么算來(lái)供醫(yī)生和病人參考的。如果不在這表中,你懂得貝葉斯,也不難通過(guò)個(gè)體所處群體的患癌率,算出這被測(cè)出陽(yáng)性的患病的可能。

在最近美國(guó)給醫(yī)生科普“機(jī)器學(xué)習(xí)”的材料中,我不時(shí)看到用貝葉斯公式計(jì)算,檢測(cè)和診斷概率之間關(guān)系的內(nèi)容,醫(yī)生通常自己不算診斷概率,有關(guān)資料或?qū)嶒?yàn)室已替他們算好了,科普機(jī)器學(xué)習(xí)的教材通常給他們補(bǔ)一下基本線性代數(shù)和概率的知識(shí)。下面是一段用檢測(cè)診斷乳腺癌的實(shí)例,名為“Bayes' Theoremand Cancer Screening”的較短視頻。

概率是不確定之事發(fā)生可能性估算的學(xué)問(wèn)。信與不信也是各人的認(rèn)知。只不過(guò)世事無(wú)常,哪能盡判黑白?估算之技,“知之者勝,不知之者不。 ... 多算,少算不,而況無(wú)算乎!”




概率問(wèn)題與貝葉斯定理
http://blog.sciencenet.cn/blog-826653-1052402.html   

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多