电竞比分网-中国电竞赛事及体育赛事平台

分享

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

 taotao_2016 2019-09-24

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

核心問(wèn)題

發(fā)現(xiàn)數(shù)字的隱藏規(guī)律,完成分類(lèi)。

核心技能

最大似然估計(jì)

給定一個(gè)概率分布 D ,已知其概率密度函數(shù)(連續(xù)分布)或概率質(zhì)量函數(shù)(離散分布)為 fD,以及一個(gè)分布參數(shù) θ ,我們可以從這個(gè)分布中抽出一個(gè)具有 n 個(gè)值的采樣 X1, X2, ..., Xn,利用 fD 計(jì)算出其似然函數(shù):

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

D 是離散分布,fθ 即是在參數(shù)為 θ 時(shí)觀測(cè)到這一采樣的概率。若其是連續(xù)分布,fθ 則為 X1, X2, ..., Xn 聯(lián)合分布的概率密度函數(shù)在觀測(cè)值處的取值。一旦我們獲得 X1, X2, ..., Xn,我們就能求得一個(gè)關(guān)于 θ 的估計(jì)。最大似然估計(jì)會(huì)尋找關(guān)于 θ 的最可能值(即,在所有可能的 θ 取值中,尋找一個(gè)值使這個(gè)采樣的“可能性”最大化)。從數(shù)學(xué)上來(lái)說(shuō),我們可以在 θ 的所有可能取值中尋找一個(gè)值使得似然函數(shù)取到最大值。這個(gè)使可能性最大的 θ 值即成為 θ 的最大似然估計(jì)。

??注意:1)這里的似然函數(shù)是指 x1, x2, ..., xn 不變時(shí),關(guān)于 θ 的一個(gè)函數(shù)。

2)最大似然估計(jì)不一定存在,也不一定唯一。

貝葉斯模型

首先復(fù)習(xí)一下貝葉斯定理:貝葉斯定理是關(guān)于隨機(jī)事件 A 和 B 的條件概率的一則定理。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

其中 P(A|B) 是在 B 發(fā)生的情況下 A 發(fā)生的可能性。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

在貝葉斯定理中,每個(gè)名詞都有約定俗成的名稱(chēng):

  • P(A|B) 是已知 B 發(fā)生后 A 的條件概率,也由于得自 B 的取值而被稱(chēng)作 A 的后驗(yàn)概率。
  • P(A) 是 A 的先驗(yàn)概率,之所以稱(chēng)為“先驗(yàn)“是因?yàn)樗豢紤]任何 B 方面的因素。
  • P(B|A) 是已知 A 發(fā)生后 B 的條件概率,也由于得自 A 的取值而被稱(chēng)作 B 的后驗(yàn)概率。
  • P(B) 是 B 的先驗(yàn)概率。

按這些術(shù)語(yǔ),貝葉斯定理也可以表述為:

后驗(yàn)概率 = (相似度*先驗(yàn)概率)/標(biāo)準(zhǔn)化常量

也就是說(shuō),后驗(yàn)概率與先驗(yàn)概率和相似度的乘積成正比。

關(guān)于樸素貝葉斯算法的具體應(yīng)用,看到一篇文章講得很詳細(xì),點(diǎn)擊這里傳送~

高斯分布

高斯分布(Gaussian Distribution), 也叫自然分布或正態(tài)分布。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

若隨機(jī)變量 X 服從一個(gè)數(shù)學(xué)期望為 μ 、標(biāo)準(zhǔn)方差為 δ^2 的高斯分布,記為:

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

則其概率密度函數(shù)為:

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

高斯分布的期望值 μ 決定了其位置,其標(biāo)準(zhǔn)差 σ 決定了分布的幅度。我們通常提到的標(biāo)準(zhǔn)正態(tài)分布是 μ = 0,σ = 1 的正態(tài)分布。

關(guān)于多元高斯分布在機(jī)器學(xué)習(xí)中的應(yīng)用,具體可以參考這篇文章:多元高斯分布(Multivariate Gaussian Distribution)

EM 算法

EM算法,即最大期望算法(Expectation-maximization algorithm)。在統(tǒng)計(jì)計(jì)算中,EM算法是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱性變量。最大期望算法經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)聚類(lèi)(Data Clustering)領(lǐng)域。

EM算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在E步上求得的最大似然值來(lái)計(jì)算參數(shù)的值。M步上找到的參數(shù)估計(jì)值被用于下一個(gè)E步計(jì)算中,這個(gè)過(guò)程不斷交替進(jìn)行。

蒙特卡羅法

蒙特卡羅是一類(lèi)隨機(jī)方法的統(tǒng)稱(chēng)。這類(lèi)方法的思想可以參考一個(gè)例子,用蒙特卡洛法求圓周率:

已知:一個(gè)半徑為R的圓,它有一個(gè)邊長(zhǎng)為2R的外切正方形。

圓面積:pi*R^2,正方形面積:2R*2R=4R^2

在正方形內(nèi)隨機(jī)取一個(gè)點(diǎn),要求每次取的點(diǎn)在正方形內(nèi)任意一個(gè)點(diǎn)位置的概率都是平均分布的,那么這個(gè)點(diǎn)在圓內(nèi)的概率大概為:pi*R^2/4R^2=pi/4

取若干個(gè)這樣的點(diǎn),利用平面上兩點(diǎn)間的距離公式,計(jì)算這個(gè)點(diǎn)到圓心的距離,從而判斷是否在圓內(nèi)。

當(dāng)我們統(tǒng)計(jì)過(guò)的點(diǎn)的個(gè)數(shù)足夠多時(shí),得到的概率值就會(huì)接近 pi/4,從而得到圓周率的值。

蒙特卡洛是依靠足夠多次數(shù)的隨機(jī)模擬,來(lái)得到近似結(jié)果的算法,說(shuō)白了就是通過(guò)頻率來(lái)估計(jì)概率。

時(shí)間序列

時(shí)間序列(time series)是一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。通常一組時(shí)間序列的時(shí)間間隔為一恒定值(如1秒,5分鐘,12小時(shí),7天,1年),因此時(shí)間序列可以作為離散時(shí)間數(shù)據(jù)進(jìn)行分析處理。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

BTC 價(jià)格走勢(shì)

檢驗(yàn) / 降低過(guò)擬合

首先明確一下什么是擬合度檢驗(yàn):擬合度檢驗(yàn)是對(duì)已制作好的預(yù)測(cè)模型進(jìn)行檢驗(yàn),比較它們的預(yù)測(cè)結(jié)果與實(shí)際發(fā)生情況的吻合程度。通常是對(duì)數(shù)個(gè)預(yù)測(cè)模型同時(shí)進(jìn)行檢驗(yàn),選其擬合度較好的進(jìn)行試用。常用的擬合度檢驗(yàn)方法有:剩余平方和檢驗(yàn)、卡方(c2)檢驗(yàn)和線性回歸檢驗(yàn)等。

什么是過(guò)擬合:在機(jī)器學(xué)習(xí)的過(guò)程中,經(jīng)常會(huì)出現(xiàn)擬合度不合適的問(wèn)題。但一開(kāi)始我們的模型往往是欠擬合的,因此才有優(yōu)化的空間,我們需要不斷調(diào)整算法來(lái)使模型的學(xué)習(xí)能力越來(lái)越強(qiáng)。但同時(shí),優(yōu)化到了一定程度還會(huì)出現(xiàn)過(guò)擬合的問(wèn)題。

通俗地說(shuō),過(guò)擬合就是模型把數(shù)據(jù)學(xué)習(xí)得太全面徹底,以至于把噪聲數(shù)據(jù)的特征也學(xué)習(xí)到了,這樣就會(huì)導(dǎo)致在測(cè)試階段不能很好地識(shí)別數(shù)據(jù),即不能正確地分類(lèi)或預(yù)測(cè),模型的泛化能力差。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

綠線代表過(guò)擬合模型,黑線代表正則化模型(防止過(guò)擬合而引入罰函數(shù)的模型)。雖然綠線完美符合訓(xùn)練數(shù)據(jù),但太過(guò)依賴(lài),并且與黑線相比,對(duì)于新的測(cè)試數(shù)據(jù)具有更高的錯(cuò)誤率。

繪制 ROC / 計(jì)算 AUC

ROC(Receiver Operating Characteristic)曲線和 AUC(Area Under Curve)常被用來(lái)評(píng)價(jià)一個(gè)二值分類(lèi)器(Binary Classifier)的優(yōu)劣。

機(jī)器學(xué)習(xí)算法數(shù)學(xué)基礎(chǔ)之——統(tǒng)計(jì)與概率論篇(3)

AUC 被定義為 ROC 曲線下的面積,顯然這個(gè)面積不會(huì)大于1。ROC 曲線上的任意相鄰兩點(diǎn)與橫軸都能形成梯形,把所有這樣的梯形面積相加即可得到 AUC。一般而言,訓(xùn)練樣本越多,在得到樣本判別為正例的分?jǐn)?shù)取值后不同分?jǐn)?shù)也相對(duì)會(huì)越多,這樣 ROC 曲線上的點(diǎn)也就越多,估算的 AUC 會(huì)更準(zhǔn)確。這種思路類(lèi)似微積分中的微分法。

AUC 的含義:AUC 值是一個(gè)概率值,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本,當(dāng)前的分類(lèi)算法根據(jù)計(jì)算得到的 Score 值將這個(gè)正樣本排在負(fù)樣本前面的概率就是 AUC 值。AUC 值越大,當(dāng)前的分類(lèi)算法越有可能將正樣本排在負(fù)樣本前面,即能夠更好的分類(lèi)。另外,AUC 與 Gini 分?jǐn)?shù)有聯(lián)系,Gini + 1 = 2*AUC。

通過(guò)概率統(tǒng)計(jì)方法來(lái)算 AUC:做 N 次隨機(jī)試驗(yàn),每次實(shí)驗(yàn)中隨機(jī)采樣一個(gè)正樣本和一個(gè)負(fù)樣本,當(dāng)模型預(yù)測(cè)正樣本的分?jǐn)?shù)大于模型預(yù)測(cè)負(fù)樣本的分?jǐn)?shù),計(jì)數(shù)則加1。記計(jì)數(shù)最終為 n(n肯定小于等于N),那么用 n/N 即得到 AUC。

顯著性檢驗(yàn)

顯著性檢驗(yàn)就是事先對(duì)總體(隨機(jī)變量)的參數(shù)或總體分布形式做出一個(gè)假設(shè),然后利用樣本信息來(lái)判斷這個(gè)假設(shè)(原假設(shè))是否合理,即判斷總體的真實(shí)情況與原假設(shè)是否顯著地有差異?;蛘哒f(shuō),顯著性檢驗(yàn)要判斷樣本與我們對(duì)總體所做的假設(shè)之間的差異是純屬機(jī)會(huì)變異,還是由我們所做的假設(shè)與總體真實(shí)情況之間不一致所引起的。

P 值即概率,反映某一事件發(fā)生的可能性大小。統(tǒng)計(jì)學(xué)根據(jù)顯著性檢驗(yàn)方法所得到的 P 值,一般以 P < 0.05 為顯著, P<0.01 為非常顯著,其含義是樣本間的差異由抽樣誤差所致的概率小于0.05 或0.01。?

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多