电竞比分网-中国电竞赛事及体育赛事平台

分享

《機(jī)器學(xué)習(xí)筆記》

 印度阿三17 2019-04-29

chapter-1

監(jiān)督學(xué)習(xí):分類,回歸
無(wú)監(jiān)督學(xué)習(xí):聚類

泛化能力:具有強(qiáng)泛化能力的模型能很好地適用與整個(gè)樣本空間。

NFL定理(沒(méi)有免費(fèi)的午餐定理):總誤差與學(xué)習(xí)算法無(wú)關(guān),任意兩個(gè)學(xué)習(xí)算法,他們的期望性相同。即學(xué)習(xí)算法的期望性跟隨機(jī)胡猜差不多。
要具體問(wèn)題具體分析,談?wù)撍惴ǖ膬?yōu)劣,必須針對(duì)具體的學(xué)習(xí)問(wèn)題。

統(tǒng)計(jì)學(xué)習(xí):支持向量機(jī)(SVM),核方法(kernel methods)

數(shù)據(jù)挖掘(data mining)

遷移學(xué)習(xí)(transfer learning)

?

chapter-2模型評(píng)估與選擇

?

留出法(hold-out):直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,即一個(gè)作為訓(xùn)練集,一個(gè)為測(cè)試集。

交叉驗(yàn)證法(cross validation):將數(shù)據(jù)集D劃分為K個(gè)大小相似的互斥子集,進(jìn)行K次訓(xùn)練和測(cè)試,最終返回K個(gè)結(jié)果均值。

交叉驗(yàn)證法的特例:留一法(Leave One-Out,LOO)

自助法(bootstrapping),隨機(jī)從D中采樣,將其拷貝到D‘,再將樣本放回D,使得該樣本在下一次仍有可能被采到。在數(shù)據(jù)集較小,難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有作用。

驗(yàn)證集(validation set):模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集,把訓(xùn)練數(shù)據(jù)劃分訓(xùn)練集和驗(yàn)證集,基于驗(yàn)證集的性能來(lái)進(jìn)行模型選擇和調(diào)參。

性能度量(performance measure):衡量模型泛化能力。

均方誤差(mean squared error)

Roc(Receiver Operating Characteristic):受試者工作特征
AUC(Area Under ROC Curve):ROC曲線下的面積
損失(loss):對(duì)應(yīng)ROC曲線之上的面積

泛化誤差可分解為偏差、方差與噪聲之和。

?

chapter-3線性模型

均方誤差(square loss):平方損失,對(duì)應(yīng)歐式距離
最小二乘法(least square method):基于均方誤差最小化來(lái)進(jìn)行模型求解的方法,在線性回歸中,最小二乘法試圖找到一條直線,使所有樣本到直線的歐氏距離之和最小。

線性判別分析(LDA):一種經(jīng)典的線性學(xué)習(xí)方法,亦稱“Fisher判別分析”

chapter-4決策樹

信息熵(information entropy):度量樣本集合純度的一種指標(biāo)。

使用信息增益來(lái)選擇最優(yōu)劃分屬性,當(dāng)信息增益過(guò)大時(shí),不具有泛化能力。著名的C4.5決策樹算法不直接使用信息增益,使用增益率(gain ratio)來(lái)選擇最優(yōu)劃分屬性

剪枝(pruning)是決策樹學(xué)習(xí)算法對(duì)付過(guò)擬合的主要手段。

chapter-5神經(jīng)網(wǎng)絡(luò)

閾值,亦稱bias,如果某神經(jīng)元的點(diǎn)位超過(guò)了一個(gè)“閾值”,就會(huì)被激活。

感知機(jī)(Perceptron)由兩層神經(jīng)元組成。很容易實(shí)現(xiàn)邏輯與或非運(yùn)算。

“前饋”:不存在環(huán)成回路

學(xué)習(xí)率控制著算法每一輪迭代中更新步長(zhǎng),太大容易振蕩,太小收斂速度會(huì)過(guò)慢。

累積BP算法直接針對(duì)累積誤差最小化,在讀取訓(xùn)練集D一遍后才對(duì)參數(shù)進(jìn)行更新,參數(shù)更新的頻率低。累積誤差下降到一定程度后,進(jìn)一步下降會(huì)非常緩慢。

標(biāo)準(zhǔn)BP和累積BP的區(qū)別 類似 隨機(jī)梯度下降(SGD)與標(biāo)準(zhǔn)梯度下降的區(qū)別。

BP過(guò)擬合策略:
1.早停:將數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集,訓(xùn)練集計(jì)算梯度、更新連接權(quán)和閾值,驗(yàn)證集用來(lái)估計(jì)誤差。
2.正則化(regularization),增加一個(gè)描述網(wǎng)絡(luò)復(fù)雜的部分。使網(wǎng)絡(luò)輸出更加“光滑”。

BP下降方向,沿負(fù)梯度方向,負(fù)梯度方向是函數(shù)值下降最快的方向。

陷入局部極小,怎么“跳出”?
1.從不同點(diǎn)開始搜索
2.模擬退火(simulated annealing),每一步以一定的概率接受比當(dāng)前解更差的結(jié)果,有助于“跳出”局部極小,接受“次優(yōu)解”的概率隨著時(shí)間的推移逐漸降低,保證算法穩(wěn)定。
3.使用隨機(jī)梯度下降

遺傳算法(genetic algorithm)也常用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以更好地逼近全局最小。

RBF(Radial Basis Function,徑向基函數(shù))網(wǎng)絡(luò),一種但隱含層前饋神經(jīng)網(wǎng)絡(luò),使用徑向基函數(shù)作為隱含層神經(jīng)元激活函數(shù),輸出是對(duì)神經(jīng)元的線性組合。

可塑性,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)新知識(shí)的能力。
穩(wěn)定性,學(xué)習(xí)新知識(shí)要保持對(duì)舊知識(shí)的記憶。

訓(xùn)練的目的,利用訓(xùn)練樣本來(lái)確定合適的連接權(quán),閾值等參數(shù)。

級(jí)聯(lián)相關(guān)網(wǎng)絡(luò)(Cascade-Correlation),結(jié)構(gòu)自適應(yīng)網(wǎng)絡(luò)代表。
級(jí)聯(lián):建立層次連接的層次結(jié)構(gòu)
相關(guān):通過(guò)最大化新神經(jīng)元的輸出與網(wǎng)絡(luò)誤差之間的相關(guān)性來(lái)訓(xùn)練相關(guān)的參數(shù)。

遞歸神經(jīng)網(wǎng)絡(luò),允許出現(xiàn)環(huán)形結(jié)構(gòu),Elman,最常用的遞歸神經(jīng)網(wǎng)絡(luò)之一。

特征映射(feature map)

匯合(pooling),池化,基于局部相關(guān)性原理進(jìn)行采樣,減少數(shù)據(jù)量同時(shí)保留有用信息。

深度學(xué)習(xí)(deep learning)通過(guò)多層處理,逐漸將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示之后,用“簡(jiǎn)單模型”完成復(fù)雜的分類等學(xué)習(xí)任務(wù),可理解為“特征學(xué)習(xí)”或“表示學(xué)習(xí)”。

chapter-6支持向量機(jī)

SMO(Sequential Minimal Optimization),固定ai之外的所有參數(shù),然后求ai上的極值。由于存在約束,選擇兩個(gè)變量ai和aj。SMO先選取違背KTT條件程度最大的變量,第二個(gè)變量選擇一個(gè)是目標(biāo)函數(shù)值減少最快的變量。由于對(duì)應(yīng)目標(biāo)函數(shù)減幅復(fù)雜度過(guò)高,采用啟發(fā)式,使選取的兩變量所對(duì)應(yīng)樣本之間的間隔最大。

支持向量回歸(support vector regression,SVR),以f(x)為中心,構(gòu)建一個(gè)寬度為2c的間隔帶,若訓(xùn)練樣本落入此間隔帶,則認(rèn)為是被預(yù)測(cè)正確的。

chapter-7貝葉斯分類器

貝葉斯決策論,考慮如何基于這些概率和誤判損失來(lái)選擇最優(yōu)的類別標(biāo)記。

貝葉斯網(wǎng),亦稱“信念網(wǎng)”借助有向無(wú)環(huán)圖來(lái)刻畫屬性之間的依賴關(guān)系,并使用條件概率表來(lái)描述屬性的聯(lián)合概率分布。

EM(expectation maximization)算法是常用的估計(jì)參數(shù)隱變量的利器,一種迭代式的方法。

數(shù)據(jù)挖掘十大算法:c4.5,CART決策樹,支持向量機(jī),樸素貝葉斯算法,EM算法,AdaBoost,k均值聚類,k近鄰算法

一、C4.5???? C4.5,是機(jī)器學(xué)習(xí)算法中的一個(gè)分類決策樹算法,它是決策樹(決策樹也就是做決策的節(jié)點(diǎn)間的組織方式像一棵樹,其實(shí)是一個(gè)倒樹)核心算法ID3的改進(jìn)算法,所以基本上了解了一半決策樹構(gòu)造方法就能構(gòu)造它。決策樹構(gòu)造方法其實(shí)就是每次選擇一個(gè)好的特征以及分裂點(diǎn)作為當(dāng)前節(jié)點(diǎn)的分類條件。

二、The k-means algorithm 即K-Means算法
k-means algorithm算法是一個(gè)聚類算法,把n的對(duì)象根據(jù)他們的屬性分為k個(gè)分割(k < n)。它與處理混合正態(tài)分布的最大期望算法很相似,因?yàn)樗麄兌荚噲D找到數(shù)據(jù)中自然聚類的中心。它假設(shè)對(duì)象屬性來(lái)自于空間向量,并且目標(biāo)是使各個(gè)群組內(nèi)部的均方誤差總和最小。

三、 Support vector machines
支持向量機(jī),英文為Support Vector Machine,簡(jiǎn)稱SV機(jī)。它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化。

四、The Apriori algorithm
Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。
其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡(jiǎn)稱頻集。

五、最大期望(EM)算法
在統(tǒng)計(jì)計(jì)算中,最大期望 (EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴于無(wú)法觀測(cè)的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚(Data Clustering)領(lǐng)域。

六、 PageRank
PageRank是Google算法的重要內(nèi)容。2001年9月被授予美國(guó)專利,專利人是Google創(chuàng)始人之一拉里·佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁(yè),而是指佩奇,即這個(gè)等級(jí)方法是以佩奇來(lái)命名的。PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價(jià)值。PageRank背后的概念是,每個(gè)到頁(yè)面的鏈接都是對(duì)該頁(yè)面的一次投票, 被鏈接的越多,就意味著被其他網(wǎng)站投票越多。

七、AdaBoost??? Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類器 (強(qiáng)分類器)。其算法本身是通過(guò)改變數(shù)據(jù)分布來(lái)實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來(lái)確定每個(gè)樣本的權(quán)值。將修改過(guò)權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器融合起來(lái),作為最后的決策分類器。

八、 kNN: k-nearest neighbor classification
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。

九、 Naive Bayes
在眾多的分類模型中,應(yīng)用最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model,NBC)。
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時(shí),NBC模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,算法也比較簡(jiǎn)單。理論上,NBC模型與其他分類方法相比具有最小的誤差率。
但是實(shí)際上并非總是如此,這是因?yàn)镹BC模型假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來(lái)了一定影響。在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),NBC模型的分類效率比不上決策樹模型。而在屬性相關(guān)性較小時(shí),NBC模型的性能最為良好。

十、 CART: 分類與回歸樹
CART, Classification and Regression Trees。 在分類樹下面有兩個(gè)關(guān)鍵的思想:第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。

chapter-8集成學(xué)習(xí)

集成學(xué)習(xí),構(gòu)建并結(jié)合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),也稱為多分類器系統(tǒng)。

目前集成學(xué)習(xí)分為兩大類,1.個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,必須串行生成的序列化方法,代表是Boosting,2.個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法,代表是Bagging和“隨機(jī)森林”(Random Forest)

Boosting是一種可將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法。

Bagging 是并行式集成學(xué)習(xí)方法著名的代表,基于自助采樣法

隨機(jī)森林(random Forest,RF)的Bagging的一個(gè)變體,在RF中,對(duì)基決策樹的每個(gè)結(jié)點(diǎn),先從該結(jié)點(diǎn)的屬性集合中隨機(jī)選擇一個(gè)包含k個(gè)屬性的子集,然后從這個(gè)子集中選擇一個(gè)最優(yōu)屬性用于劃分。

chapter-9聚類

聚類,試圖將數(shù)據(jù)集中的樣本劃分為若干個(gè)不相交的子集,每個(gè)子集稱為一個(gè)“簇”(cluster),每個(gè)簇可能對(duì)應(yīng)于一些潛在的概念(類別),這些概念對(duì)聚類算法事先是未知的,聚類過(guò)程僅能自動(dòng)形成簇結(jié)構(gòu),簇所對(duì)應(yīng)的概念語(yǔ)義需由使用者來(lái)把握和命名。

聚類既能作為一個(gè)單獨(dú)過(guò)程,用于尋找數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu),也可以作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過(guò)程。

chapter-10降維與度量學(xué)習(xí)

k近鄰(k-Nearest Neighbor,簡(jiǎn)稱KNN)學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)。

主成分分析(principal component analysis,PCA)是常用的一種降維方法。

線性判別(LDA),監(jiān)督線性降維最著名的方法。

chapter-11特征選擇與稀疏學(xué)習(xí)

常見的特征選擇可分為三類:過(guò)濾式(filter)、包裹式(wrapper)和嵌入式(embedding)。

chapter-12計(jì)算學(xué)習(xí)理論

?

chapter-13半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)(semi supervised learning),讓學(xué)習(xí)器不依賴外界交互、自動(dòng)地利用未標(biāo)記樣本來(lái)提升學(xué)習(xí)性能。

chapter-14概率圖模型

隱馬爾可夫模型(Hidden Markov Model,HMM)是結(jié)構(gòu)最簡(jiǎn)單的動(dòng)態(tài)貝葉斯網(wǎng),是一種著名的有向圖模型,主要用于時(shí)序數(shù)據(jù)建模,在語(yǔ)音識(shí)別,自然語(yǔ)言處理等領(lǐng)域有廣泛應(yīng)用。

chapter-15規(guī)則學(xué)習(xí)

?

chapter-16強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí),可看作具有“延遲標(biāo)記信息”的監(jiān)督學(xué)習(xí)問(wèn)題。



來(lái)源:http://www./content-4-176301.html

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多