|
理解概率概念對(duì)于機(jī)器學(xué)習(xí)工程師或數(shù)據(jù)科學(xué)專(zhuān)業(yè)人員來(lái)說(shuō)是必須的。許多數(shù)據(jù)科學(xué)挑戰(zhàn)性問(wèn)題的解決方案本質(zhì)上是從概率視角解決的。因此,更好地理解概率將有助于更有效地理解和實(shí)現(xiàn)這些算法。 每當(dāng)你閱讀任何概率書(shū)、博客或論文時(shí),大多數(shù)時(shí)候你會(huì)發(fā)現(xiàn)這些書(shū)中的講解太過(guò)理論化。據(jù)研究,65%的人是視覺(jué)學(xué)習(xí)者。以圖形方式理解定理和證明是一種可視化信息和數(shù)據(jù)的有效方式,而且不僅以可視方式呈現(xiàn)數(shù)據(jù)已被證明長(zhǎng)期有效。因此,本文以可視方式透徹展示、講解概率概念。 本文安排如下:
什么是條件概率?根據(jù)維基百科, 條件概率是一個(gè)事件概率依賴(lài)于另一個(gè)事件(已然發(fā)生)的度量,假設(shè)(通過(guò)假設(shè)、推定、斷言或證據(jù))另一個(gè)事件發(fā)生的概率,表示為P(A / B)。 現(xiàn)在讓我們嘗試通過(guò)一種新的方法在視覺(jué)上解釋它。 條件概率圖 讓我們假設(shè)我們?cè)?strong>START的時(shí)間線(xiàn)內(nèi)開(kāi)始觀(guān)察。P(A)表示在我們開(kāi)始觀(guān)察時(shí)間線(xiàn)之后發(fā)生事件A的概率。在A之后還有可能發(fā)生另一個(gè)事件B,并且其幾率由P(B | A)表示。 由于兩個(gè)事件都是連續(xù)發(fā)生的,所以整個(gè)時(shí)間線(xiàn)出現(xiàn)的概率(即A和B都發(fā)生,B發(fā)生在A之后)是 P(A)·P(B | A) 由于我們正在考慮A和B都發(fā)生的概率,它也可以解釋為P(A∩B) 交叉規(guī)則(A∩B) P(A∩B)= P(A)·P(B | A) 這里P(B | A)被稱(chēng)為條件概率,因此可以簡(jiǎn)化為 P(B | A)= P(A∩B)/ P(A),假設(shè)P(A)≠0 請(qǐng)注意,上述情況的前提是,事件序列發(fā)生且彼此相互依賴(lài)。也有可能A不影響B(tài),如果是,則這些事件彼此獨(dú)立并稱(chēng)為獨(dú)立事件。 獨(dú)立事件 在獨(dú)立事件的情況下,A發(fā)生的幾率不會(huì)影響B(tài)發(fā)生的幾率。 P(B | A)= P(B) 總概率定律總概率定律將計(jì)算分為不同的部分。它用于計(jì)算事件的概率,該事件與前一事件之前發(fā)生的兩個(gè)或多個(gè)事件相關(guān)。 太抽象了?讓我們嘗試一種視覺(jué)方法 總概率圖 設(shè)B是可以在任何' n '個(gè)事件(A1,A2,A3,...... ...... An)之后發(fā)生的事件。如上所定義P(Ai∩B)= P(Ai)?P(B | Ai)?i∈[1,n] 事件A1,A2,A3,...... A是相互排斥的,不能同時(shí)發(fā)生,我們可以通過(guò)A1或A2或A3或......或An到達(dá)B. 因此,用和的表達(dá)如下: P(B)= P(A1∩B)+ P(A2∩B)+ P(A3∩B)+ ...... + P(An∩B) 進(jìn)而: P(B) = P(A1)·P(B | A1)+ P(A2)·P(B | A2)+ ...... + P(An)·P(B | An) 上述表達(dá)式稱(chēng)為總概率規(guī)則或總概率定律。 貝葉斯定理貝葉斯定理是一種基于某些概率的先驗(yàn)知識(shí)來(lái)預(yù)測(cè)起源或來(lái)源的方法 我們已經(jīng)知道P(B | A)= P(A∩B)/ P(A),假設(shè)兩個(gè)相關(guān)事件的P(A)≠0。有沒(méi)有想過(guò)P(A | B)=?,從語(yǔ)義上說(shuō)它沒(méi)有任何意義,因?yàn)锽發(fā)生在A之后,時(shí)間線(xiàn)無(wú)法逆轉(zhuǎn)(即我們不能從B向上行進(jìn)到START) 數(shù)學(xué)上我們根據(jù)條件概率知道 P(A | B)= P(B∩A)/ P(B),假設(shè)P(B)≠0 P(A | B)= P(A∩B)/ P(B),P(A∩B)= P(B∩A) 我們知道 P(A∩B)= P(B | A)·P(A) 代入: P(A | B)= P(B | A)·P(A)/ P(B) 這是貝葉斯定理的最簡(jiǎn)單形式。 現(xiàn)在,假設(shè)B依賴(lài)于它之前發(fā)生的多個(gè)事件。將Total Probability Rule應(yīng)用于上面的表達(dá)式,我們得到 P(Ai | B)= P(B | Ai)·P(Ai)/(P(A1)·P(B | A1)+ ...... + P(An)·P(B | An)) 這是我們通常在各種實(shí)際應(yīng)用中使用的貝葉斯定理的形式。 貝葉斯定理的應(yīng)用由于其預(yù)測(cè)性,我們使用貝葉斯定理推導(dǎo)出樸素貝葉斯,這是一種流行的機(jī)器學(xué)習(xí)分類(lèi)器 如上所述,貝葉斯定理基于可能與事件相關(guān)的因素的先驗(yàn)知識(shí)來(lái)定義事件的概率。 現(xiàn)在,基本上對(duì)于數(shù)據(jù)點(diǎn)xi,我們必須預(yù)測(cè)當(dāng)前輸出Y所屬的類(lèi)。假設(shè)輸出的總類(lèi)數(shù)為'j'。然后, P(y = c1 | x = xi) - - >告訴我們,對(duì)于給定的輸入xi,y是c1的概率是多少。 P(y = c2 | x = xi) - - >告訴我們,對(duì)于給定的輸入xi,y是c2的概率是多少。 在所有這些概率計(jì)算中,y屬于具有最大概率的特定類(lèi)。 我們將使用貝葉斯定理進(jìn)行這些概率計(jì)算。 這給出了輸出屬于數(shù)據(jù)點(diǎn)(xi)的當(dāng)前值的第j類(lèi)的概率。 因?yàn)閷?duì)于所有類(lèi)1,2,...,j,分母將具有相同的值,所以我們可以在進(jìn)行比較時(shí)忽略它。因此,我們獲得了計(jì)算概率的公式。 為什么它被稱(chēng)為樸素?? 我們之所以稱(chēng)之為樸素,是因?yàn)槲覀冏隽艘粋€(gè)簡(jiǎn)單的假設(shè),即類(lèi)中特定特征的存在與任何其他特征的存在無(wú)關(guān),這意味著每個(gè)特征彼此獨(dú)立。 概率P(y = cj)的估計(jì)可以直接從訓(xùn)練數(shù)據(jù)點(diǎn)的數(shù)量來(lái)計(jì)算。 假設(shè)有100個(gè)訓(xùn)練點(diǎn)和3個(gè)輸出類(lèi),10個(gè)屬于c1類(lèi),40個(gè)屬于C2類(lèi),其余50個(gè)屬于C3類(lèi)。 類(lèi)概率的估計(jì)值將是: P(y = C1)= 10/100 = 0.1 P(y = C2)= 40/100 = 0.4 P(y = C3)= 50/100 = 0.5 為了對(duì)P(x = xi | y = cj)進(jìn)行概率估計(jì),樸素貝葉斯分類(lèi)算法假設(shè)所有特征都是獨(dú)立的。因此,我們可以通過(guò)單獨(dú)乘以為所有這些特征獲得的概率(假設(shè)特征是獨(dú)立的)來(lái)計(jì)算這個(gè),用于第j類(lèi)的輸出。 P(x = xi | y = cj)= P(x = xi(1)| y = cj)P(x = xi(2)| y = cj).... P(X = XI(N)| Y = CJ) 這里,xi(1)表示第i個(gè)數(shù)據(jù)點(diǎn)的第1特征的值,x = xi(n)表示第i個(gè)數(shù)據(jù)點(diǎn)的第n個(gè)特征的值。 在接受了樸素假設(shè)之后,我們可以很容易地計(jì)算出單個(gè)特征概率,然后通過(guò)簡(jiǎn)單地乘以結(jié)果來(lái)計(jì)算最終概率P'。 使用上面的公式,我們可以計(jì)算輸出y對(duì)于給定的第i個(gè)數(shù)據(jù)點(diǎn)屬于第j個(gè)類(lèi)的概率。 這是貝葉斯定理在實(shí)際應(yīng)用中的主要應(yīng)用。 |
|
|
來(lái)自: niudp > 《數(shù)學(xué)》