深入剖析機(jī)器學(xué)習(xí)中的統(tǒng)計(jì)思想

黃元章3355 2019-01-23

展開全文

現(xiàn)在機(jī)器學(xué)習(xí)中大家達(dá)成了一個(gè)共識(shí): 如果你在用一個(gè)機(jī)器學(xué)習(xí)方法，而不懂其基礎(chǔ)原理和解釋性，這是一件非?？膳碌氖虑椤?/strong>

統(tǒng)計(jì)強(qiáng)調(diào)推理，而機(jī)器學(xué)習(xí)則強(qiáng)調(diào)預(yù)測(cè)。執(zhí)行統(tǒng)計(jì)信息時(shí)，需要推斷生成數(shù)據(jù)的過程。當(dāng)你進(jìn)行機(jī)器學(xué)習(xí)時(shí)，你想知道用什么樣的變量，以及預(yù)測(cè)未來會(huì)是什么樣子。

以統(tǒng)計(jì)思想的視角，了解數(shù)據(jù)分布、評(píng)估各種結(jié)果的概率、理解數(shù)據(jù)生成過程、模型解釋性是關(guān)注的重點(diǎn)，而機(jī)器學(xué)習(xí)更多的關(guān)注的是預(yù)測(cè)的準(zhǔn)確性，我們知道，模型的實(shí)際應(yīng)用光有準(zhǔn)確性是不夠的，人類到現(xiàn)在還沒有一個(gè)非常成功的機(jī)器（系統(tǒng)），工作的好卻不能解釋。所以機(jī)器學(xué)習(xí)中，統(tǒng)計(jì)思想的應(yīng)用是非常重要的。

統(tǒng)計(jì)學(xué)與計(jì)算機(jī)學(xué)家之爭(zhēng)

原來統(tǒng)計(jì)是在統(tǒng)計(jì)系，機(jī)器學(xué)習(xí)是在計(jì)算機(jī)系，這兩個(gè)是不相來往的，而且互相都不認(rèn)同對(duì)方的價(jià)值。專注于機(jī)器學(xué)習(xí)的計(jì)算機(jī)學(xué)家認(rèn)為那些統(tǒng)計(jì)理論沒有用，不解決問題；而統(tǒng)計(jì)學(xué)家則認(rèn)為計(jì)算機(jī)學(xué)家只是在重新建造輪子，沒有新意。

然而，隨著機(jī)器學(xué)習(xí)的迅猛發(fā)展，統(tǒng)計(jì)學(xué)家認(rèn)識(shí)到計(jì)算機(jī)學(xué)家正在做出的貢獻(xiàn)，而計(jì)算機(jī)學(xué)家也認(rèn)識(shí)到統(tǒng)計(jì)的理論和方法論的普遍性意義。

Boosting, SVM 和稀疏學(xué)習(xí)是機(jī)器學(xué)習(xí)界也是統(tǒng)計(jì)界，是近二十年來最活躍的方向，其實(shí)是二者相輔相成的結(jié)果。比如，SVM的理論其實(shí)很早被Vapnik等提出來了，但計(jì)算機(jī)界發(fā)明了一個(gè)有效的求解算法，而且后來又有非常好的實(shí)現(xiàn)代碼被陸續(xù)開源給大家使用，于是SVM就變成分類算法的一個(gè)基準(zhǔn)模型。

機(jī)器學(xué)家通常具有強(qiáng)的計(jì)算能力和解決問題的直覺，而統(tǒng)計(jì)學(xué)家長(zhǎng)于理論分析，具有強(qiáng)的建模能力，因此，兩者有很好的互補(bǔ)性。

所以兩者融合是必然的趨勢(shì)。

統(tǒng)計(jì)思想對(duì)機(jī)器學(xué)習(xí)的巨大貢獻(xiàn)

我們清楚的知道，機(jī)器學(xué)習(xí)在應(yīng)用中迅猛發(fā)展，是人工智能具體落地的主角，也是臺(tái)前英雄，而統(tǒng)計(jì)卻是幕后推動(dòng)者。

機(jī)器學(xué)習(xí)是數(shù)據(jù)建模的計(jì)算機(jī)科學(xué)觀點(diǎn)，側(cè)重于算法方法和模型技能。
統(tǒng)計(jì)學(xué)習(xí)是數(shù)據(jù)建模的數(shù)學(xué)視角，側(cè)重于模型參數(shù)的準(zhǔn)確估計(jì)、模型有效性和擬合優(yōu)度。

機(jī)器學(xué)習(xí)由于過度關(guān)注預(yù)測(cè)準(zhǔn)確性，缺乏完全發(fā)展的推理概念。

1）似乎沒有人認(rèn)識(shí)到任何預(yù)測(cè)（參數(shù)估計(jì)等）都會(huì)受到隨機(jī)誤差和系統(tǒng)誤差（偏差）的影響。統(tǒng)計(jì)學(xué)家會(huì)接受這是預(yù)測(cè)中不可避免的一部分，并會(huì)嘗試估計(jì)錯(cuò)誤。統(tǒng)計(jì)技術(shù)將嘗試找到具有最小偏差和隨機(jī)誤差的估計(jì)。

2）在機(jī)器學(xué)習(xí)中似乎沒有深入理解將模型應(yīng)用于來自同一分布群體的新樣本限制，盡管我們有劃分訓(xùn)練集、測(cè)試集。實(shí)際上，源于統(tǒng)計(jì)思想的交叉驗(yàn)證和懲罰方法，指導(dǎo)在簡(jiǎn)約性和模型復(fù)雜性之間達(dá)到權(quán)衡，早已是統(tǒng)計(jì)中非常廣泛的手段。而大部分機(jī)器學(xué)習(xí)從業(yè)者對(duì)這些指導(dǎo)原則似乎更為臨時(shí)。

所以，機(jī)器學(xué)習(xí)從業(yè)者必須保持開放的思維并利用方法，并從應(yīng)用統(tǒng)計(jì)和統(tǒng)計(jì)學(xué)習(xí)的密切相關(guān)領(lǐng)域中理解術(shù)語，并在實(shí)際中充分應(yīng)用統(tǒng)計(jì)思想，才能更好的將機(jī)器學(xué)習(xí)應(yīng)用到實(shí)踐中。

正則化：統(tǒng)計(jì)中的懲罰思想

在機(jī)器學(xué)習(xí)中，我們?cè)谡齽t化和SVM中接觸到懲罰方法，沒學(xué)過統(tǒng)計(jì)的，會(huì)感覺很陌生，其實(shí)這是在統(tǒng)計(jì)中經(jīng)常用的方法了。比如光滑樣條Smooth Spline通過對(duì)二階導(dǎo)數(shù)進(jìn)行懲罰來控制擬合曲線的光滑程度；LASSO和Ridge regression回歸。

懲罰的核心目的是限制參數(shù)空間的大小以降低模型復(fù)雜度，懲罰本身反應(yīng)我們對(duì)對(duì)應(yīng)統(tǒng)計(jì)問題的某種先驗(yàn)知識(shí)。懲罰有獨(dú)特的概率上的解釋，比如假設(shè)高斯噪聲的線性模型中，LASSO的L1懲罰相當(dāng)于給回歸參數(shù)加上了一個(gè)Laplace prior，而嶺回歸Ridge regression中的L2懲罰則對(duì)應(yīng)一般的normal prior。

在SVM的硬間隔支持向量機(jī)中，由于幾何間隔本身代表的是距離，是非負(fù)的，像上圖所示的紅色、綠色兩個(gè)噪聲點(diǎn)會(huì)使得整個(gè)問題無解。所以引入懲罰因子（松弛變量）這種統(tǒng)計(jì)學(xué)中的思想，使SVM有了容錯(cuò)能力，更魯棒了。

線性回歸：隨機(jī)變量和離差平方和

機(jī)器學(xué)習(xí)之前，線性回歸其實(shí)已經(jīng)是在統(tǒng)計(jì)學(xué)中用的最多的方法，所以如果我們理解線性回歸算法，如果以數(shù)據(jù)和擬合的機(jī)器學(xué)習(xí)視角來看問題，可能就覺得太簡(jiǎn)單了，甚至理解的不那么深刻；而從統(tǒng)計(jì)的視角來看，就會(huì)發(fā)現(xiàn)還不是那么簡(jiǎn)單，意義還很多，看看其統(tǒng)計(jì)思想：

1、隨機(jī)變量

Y= Xβ+ε

Y是 X的線性函數(shù)(部分)加上誤差項(xiàng)，線性部分反映了由于X的變化而引起的Y的變化，誤差項(xiàng)ε是隨機(jī)變量，一般是均值為零的高斯分布。反映了除X和Y之間的線性關(guān)系之外的隨機(jī)因素對(duì)Y的影響。是不能由X和Y之間的線性關(guān)系所解釋的變異性。所以理解了隨機(jī)變量，才能真正理解我們擬合優(yōu)度目標(biāo)。

2、離差平方和

總離差平方和反映因變量的n個(gè)觀察值與其均值的總誤差；
回歸平方和反映自變量x的變化對(duì)因變量 y 取值變化的影響，或者說，是由于x與y之間的線性關(guān)系引起的y的取值變化，也稱為可解釋的平方和；
殘差平方和反映除x以外的其他因素對(duì) y 取值的影響，也稱為不可解釋的平方和

注意：離差平方和公式可以由均值為零的隨機(jī)變量誤差來推導(dǎo)。

樸素貝葉斯：貝葉斯定理

樸素貝葉斯算法所體現(xiàn)的統(tǒng)計(jì)學(xué)思想就更多了：

①、貝葉斯定理；②特征條件之間相互獨(dú)立的假設(shè)。

這涉及很多統(tǒng)計(jì)與概率論的相關(guān)概念：條件概率，聯(lián)合概率分布，先驗(yàn)概率，后驗(yàn)概率，獨(dú)立性。

交叉驗(yàn)證：重采樣方法

交叉驗(yàn)證本質(zhì)上說是重采樣方法，其思想起源是統(tǒng)計(jì)學(xué)。交叉驗(yàn)證準(zhǔn)確度是可以解釋為與模型正確的概率相關(guān)的東西。

交叉驗(yàn)證用在數(shù)據(jù)不是很充足的時(shí)候。

將樣本數(shù)據(jù)進(jìn)行切分。在得到多組不同的訓(xùn)練集和測(cè)試集，某次訓(xùn)練集中的某樣本在下次可能成為測(cè)試集中的樣本，即所謂'交叉'。

支持向量機(jī)：統(tǒng)計(jì)學(xué)習(xí)理論

支持向量機(jī)的產(chǎn)生源于統(tǒng)計(jì)學(xué)習(xí)理論的突破。

統(tǒng)計(jì)學(xué)習(xí)理論是一種研究訓(xùn)練樣本有限情況下的機(jī)器學(xué)習(xí)規(guī)律的學(xué)科。換句話說，統(tǒng)計(jì)學(xué)習(xí)理論中，學(xué)習(xí)的統(tǒng)計(jì)性能，即通過有限樣本能否學(xué)習(xí)得到其中的一些規(guī)律？

在統(tǒng)計(jì)學(xué)習(xí)理論產(chǎn)生之前，機(jī)器學(xué)習(xí)中統(tǒng)計(jì)學(xué)中關(guān)于估計(jì)的一致性、無偏性和估計(jì)方差的界等，以及分類錯(cuò)誤率等漸近性特征是實(shí)際應(yīng)用中往往得不到滿足，而這種問題在高維空間時(shí)尤其如此。

由萬普尼克建立基于統(tǒng)計(jì)學(xué)習(xí)的機(jī)器學(xué)習(xí)理論，使用統(tǒng)計(jì)的方法，因此有別于歸納學(xué)習(xí)等其它機(jī)器學(xué)習(xí)方法。

（1）結(jié)構(gòu)風(fēng)險(xiǎn)是為經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)的和。

（2）盡管經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的歸納原則是一致的，但是一致性是在樣本數(shù)量趨向無窮大時(shí)得到了，在樣本點(diǎn)個(gè)數(shù)有限的情況下，僅僅用經(jīng)驗(yàn)風(fēng)險(xiǎn)來近似期望風(fēng)險(xiǎn)是十分粗糙的，結(jié)構(gòu)風(fēng)險(xiǎn)則是期望風(fēng)險(xiǎn)的一個(gè)上界。

基于這個(gè)理論的支持向量機(jī)，數(shù)學(xué)基礎(chǔ)非常完備，閃爍著統(tǒng)計(jì)思想的火花，對(duì)機(jī)器學(xué)習(xí)的理論界以及各個(gè)應(yīng)用領(lǐng)域都有極大的貢獻(xiàn)。

貝葉斯估計(jì)：足夠的觀察數(shù)據(jù)會(huì)讓分布更加真實(shí)

在貝葉斯估計(jì)中的統(tǒng)計(jì)思想有：

一個(gè)是貝葉斯定理

一個(gè)是觀察數(shù)據(jù)，足夠的觀察數(shù)據(jù)會(huì)讓估計(jì)更加符合數(shù)據(jù)的真實(shí)分布。

已經(jīng)看到P（Θ）是先驗(yàn)分布。它代表了我們對(duì)參數(shù)真實(shí)價(jià)值的信念，就像我們的分布代表了我們對(duì)出售冰淇淋概率的看法一樣。

左側(cè)的P（Θ|data）稱為后驗(yàn)分布。這是在我們計(jì)算右側(cè)的所有內(nèi)容并將觀察到的數(shù)據(jù)考慮在內(nèi)之后表示我們對(duì)參數(shù)值的信念的分布。

P（data|Θ ）是似然分布。一般是高斯分布?（data;μ，σ）。

因此，我們可以通過使用我們提供的參數(shù)的先驗(yàn)信念計(jì)算出后驗(yàn)分布。

這是兩個(gè)觀察點(diǎn)下擬合的情況：

這是10個(gè)數(shù)據(jù)觀察點(diǎn)下的貝葉斯估計(jì)擬合的情況：

高斯過程：統(tǒng)計(jì)中高斯分布、貝葉斯定理、觀察數(shù)據(jù)、均值、方差的意義

分布：高斯分布是實(shí)際中廣泛的存在。

貝葉斯定理：從先驗(yàn)概率，即對(duì)一些關(guān)于事件發(fā)生概率的猜測(cè)開始，然后你觀察當(dāng)前事件發(fā)生的似然（可能性），并根據(jù)發(fā)生的事情更新你的初始猜測(cè)。更新后，先驗(yàn)概率稱為后驗(yàn)概率。

所以要預(yù)測(cè)新數(shù)據(jù)點(diǎn)的y值，從概率的視角看，我們可以用條件概率來預(yù)測(cè)，即在歷史數(shù)據(jù)的X、Y值條件下，當(dāng)前y的概率分布。

分布均值：對(duì)y*的最佳估計(jì)

GP建模中的關(guān)鍵假設(shè)是我們的數(shù)據(jù)可以表示為來自多元高斯分布的樣本，我們有

我們對(duì)條件概率p（y* | y）感興趣：'給定數(shù)據(jù)，y *的特定預(yù)測(cè)的可能性有多大？'。這個(gè)條件概率仍然遵循高斯分布（推導(dǎo)過程略），所以有：

對(duì)y*的最佳估計(jì)是這種分布的平均值：

分布的方差：估計(jì)不確定性度量

我們估計(jì)的不確定性由方差給出：

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黃元章3355 > 《科技藝術(shù)》

舉報(bào)/認(rèn)領(lǐng)