Naive Bayes Classifier - 樸素貝葉斯分類器簡介在機(jī)器學(xué)習(xí)中,樸素貝葉斯分類器是一系列基于“貝葉斯原理”和“特征之間獨(dú)立分布假設(shè)”的概率分類器的總稱。把它的名稱分成兩部分來看,一部分是“貝葉斯”對(duì)應(yīng)的是“貝葉斯原理”;另一部分對(duì)應(yīng)的是“樸素 Naive” 對(duì)應(yīng)的是 “特征之間獨(dú)立分布假設(shè)”,因?yàn)樵诂F(xiàn)實(shí)世界里這明顯是一個(gè)過于簡單的假設(shè)。 自20世紀(jì)50年代以來, 樸素貝葉斯一直受到廣泛的研究。它是在1960s,作為一種流行的文本分類方法進(jìn)入人們的視野。經(jīng)過適當(dāng)?shù)念A(yù)處理, 它在文本分類領(lǐng)域甚至可以與更高級(jí)的算法(比如svm)取得相當(dāng)?shù)乃剑?在自動(dòng)醫(yī)療診斷中也有發(fā)現(xiàn)其應(yīng)用價(jià)值。 數(shù)學(xué)原理樸素貝葉斯本質(zhì)上是一個(gè)條件概率模型,他首先要解決的問題是求出某個(gè)狀態(tài)下,發(fā)生事件的概率。數(shù)學(xué)表達(dá)式如下: 對(duì)于給定的x來說,p(x)其實(shí)是一定的,可以理解為是個(gè)常數(shù)。那么說明我們要求解的是上述等式的分子,分子可以用如下聯(lián)合概率(joint probability)表達(dá)式表示: 到了這個(gè)時(shí)候,該’Naive Bayes’里的Naive出來表演了,Naive指的是簡單,樸素:假設(shè)里的所有相互獨(dú)立。 可以進(jìn)一步表達(dá)如下,其中 截止目前以上討論的都是 Naive Bayes 概率模型的推導(dǎo)問題,離我們要討論的 Naive Bayes Classifier 還差一步。要形成一個(gè)完整的 Naive Bayes Classifier,我們還需要一個(gè)判定法則。最通常用的一個(gè)法則是最大概率法則(MAP rule); 結(jié)合如上法則,我們可以形成一個(gè)完整的 Naive Bayes Classifier 了。 不同的 Naive Bayes Classifier 的不同之處主要體現(xiàn)在其對(duì) 的假設(shè)上,比如說 ‘Gaussian Naive Bayes’ 的假設(shè)是, 服從高斯分布:
在訓(xùn)練一個(gè) “Gaussian Naive Bayes Classifier” 的時(shí)候,我們的目的是計(jì)算出 y 的mean()和std()。 優(yōu)劣勢(shì)討論樸素貝葉斯是一種基于概率理論的分類算法,其代碼實(shí)現(xiàn)和訓(xùn)練都比較簡單,需要計(jì)算量較少。盡管它對(duì)于特征相互獨(dú)立這一假設(shè)不太符合實(shí)際,但是卻使其在在實(shí)際中更加實(shí)用。特征間關(guān)系的解耦,使得我們可以獨(dú)立地研究每個(gè)特征相對(duì)于類別的分布,有效避免了‘維度災(zāi)難’(即需要處理的數(shù)據(jù)量隨著特征數(shù)量(維度)的增加呈指數(shù)級(jí)地增長)。 另一方面,盡管樸素貝葉斯在分類領(lǐng)域的效果不錯(cuò),是處理分類問題的一把好手,但卻不能準(zhǔn)確預(yù)測(cè)事務(wù)的概率,它的機(jī)制設(shè)計(jì)是通過概率之間的比較輸出結(jié)果,更關(guān)注的是相對(duì)的大小。 參考文獻(xiàn) |
|
|