电竞比分网-中国电竞赛事及体育赛事平台

分享

Naive Bayes Classifier

 昵稱45943784 2019-07-18

Naive Bayes Classifier - 樸素貝葉斯分類器

簡介

在機(jī)器學(xué)習(xí)中,樸素貝葉斯分類器是一系列基于“貝葉斯原理”和“特征之間獨(dú)立分布假設(shè)”的概率分類器的總稱。把它的名稱分成兩部分來看,一部分是“貝葉斯”對(duì)應(yīng)的是“貝葉斯原理”;另一部分對(duì)應(yīng)的是“樸素 Naive” 對(duì)應(yīng)的是 “特征之間獨(dú)立分布假設(shè)”,因?yàn)樵诂F(xiàn)實(shí)世界里這明顯是一個(gè)過于簡單的假設(shè)。

自20世紀(jì)50年代以來, 樸素貝葉斯一直受到廣泛的研究。它是在1960s,作為一種流行的文本分類方法進(jìn)入人們的視野。經(jīng)過適當(dāng)?shù)念A(yù)處理, 它在文本分類領(lǐng)域甚至可以與更高級(jí)的算法(比如svm)取得相當(dāng)?shù)乃剑?在自動(dòng)醫(yī)療診斷中也有發(fā)現(xiàn)其應(yīng)用價(jià)值。

數(shù)學(xué)原理

樸素貝葉斯本質(zhì)上是一個(gè)條件概率模型,他首先要解決的問題是求出某個(gè)狀態(tài) X=(x_1, \dots, x_n)下,發(fā)生事件 C_k的概率。數(shù)學(xué)表達(dá)式如下:
p(C_k \mid x_1, \dots, x_n)
根據(jù)“貝葉斯原理”,上述表達(dá)式可以轉(zhuǎn)化成如下表達(dá)式,其中 X=(x_1, \dots, x_n):

對(duì)于給定的x來說,p(x)其實(shí)是一定的,可以理解為是個(gè)常數(shù)。那么說明我們要求解的是上述等式的分子,分子可以用如下聯(lián)合概率(joint probability)表達(dá)式表示:
p(C_k , x_1, \dots, x_n)
根據(jù)條件概率定義,可以使用鏈?zhǔn)椒▌t作如下推導(dǎo):

到了這個(gè)時(shí)候,該’Naive Bayes’里的Naive出來表演了,Naive指的是簡單,樸素:假設(shè) X=(x_1, \dots, x_n)里的所有 x_i相互獨(dú)立。
根據(jù)這個(gè)前提假設(shè)我們可以知道:

因此,我們要求解的問題可以表達(dá)如下,其中 \propto表示成正比:

可以進(jìn)一步表達(dá)如下,其中

截止目前以上討論的都是 Naive Bayes 概率模型的推導(dǎo)問題,離我們要討論的 Naive Bayes Classifier 還差一步。要形成一個(gè)完整的 Naive Bayes Classifier,我們還需要一個(gè)判定法則。最通常用的一個(gè)法則是最大概率法則(MAP rule);

結(jié)合如上法則,我們可以形成一個(gè)完整的 Naive Bayes Classifier 了。

不同的 Naive Bayes Classifier 的不同之處主要體現(xiàn)在其對(duì) P(x_i \mid y) 的假設(shè)上,比如說 ‘Gaussian Naive Bayes’ 的假設(shè)是, P(x_i \mid y) 服從高斯分布:

P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)

在訓(xùn)練一個(gè) “Gaussian Naive Bayes Classifier” 的時(shí)候,我們的目的是計(jì)算出 y 的mean( \mu_y)和std( \sigma^2_y)。

優(yōu)劣勢(shì)討論

樸素貝葉斯是一種基于概率理論的分類算法,其代碼實(shí)現(xiàn)和訓(xùn)練都比較簡單,需要計(jì)算量較少。盡管它對(duì)于特征相互獨(dú)立這一假設(shè)不太符合實(shí)際,但是卻使其在在實(shí)際中更加實(shí)用。特征間關(guān)系的解耦,使得我們可以獨(dú)立地研究每個(gè)特征相對(duì)于類別的分布,有效避免了‘維度災(zāi)難’(即需要處理的數(shù)據(jù)量隨著特征數(shù)量(維度)的增加呈指數(shù)級(jí)地增長)。

另一方面,盡管樸素貝葉斯在分類領(lǐng)域的效果不錯(cuò),是處理分類問題的一把好手,但卻不能準(zhǔn)確預(yù)測(cè)事務(wù)的概率,它的機(jī)制設(shè)計(jì)是通過概率之間的比較輸出結(jié)果,更關(guān)注的是相對(duì)的大小。

參考文獻(xiàn)

維基百科 - Naive Bayes Classifier

scikit-learn - 1.9. Naive Bayes

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多