【Python數(shù)據(jù)挖掘】第四篇

highoo 2019-03-20

展開全文

機器學習導論

什么是機器學習
機器學習的種類
代價函數(shù)，優(yōu)化目標
模型泛化能力
模型評估

什么是機器學習

　　機器學習是人工智能的一個分支。人工智能的研究是從以“推理”為重點到以“知識”為重點，再到以“學習”為重點，一條自然、清晰的脈絡。顯然，機器學習是實現(xiàn)人工智能的一個途徑，即以機器學習為手段解決人工智能中的問題。機器學習在近30多年已發(fā)展為一門多領(lǐng)域交叉學科，涉及概率論、統(tǒng)計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設(shè)計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律，并利用規(guī)律對未知數(shù)據(jù)進行預測的算法。因為學習算法中涉及了大量的統(tǒng)計學理論，機器學習與推斷統(tǒng)計學聯(lián)系尤為密切，也被稱為統(tǒng)計學習理論。算法設(shè)計方面，機器學習理論關(guān)注可以實現(xiàn)的，行之有效的學習算法。很多推論問題屬于無程序可循難度，所以部分的機器學習研究是開發(fā)容易處理的近似算法。

　　機器學習已廣泛應用于數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人等領(lǐng)域。

機器學習的種類

監(jiān)督學習從給定的訓練數(shù)據(jù)集中學習出一個函數(shù)，當新的數(shù)據(jù)到來時，可以根據(jù)這個函數(shù)預測結(jié)果。監(jiān)督學習的訓練集要求是包括輸入和輸出，也可以說是特征和目標。訓練集中的目標是由人標注的。常見的監(jiān)督學習算法包括回歸分析和統(tǒng)計分類。

無監(jiān)督學習與監(jiān)督學習相比，訓練集沒有人為標注的結(jié)果。常見的無監(jiān)督學習算法有聚類。

半監(jiān)督學習介于監(jiān)督學習與無監(jiān)督學習之間。

增強學習通過觀察來學習做成如何的動作。每個動作都會對環(huán)境有所影響，學習對象根據(jù)觀察到的周圍環(huán)境的反饋來做出判斷。

代價函數(shù)

模型泛化能力

模型評估

Precision (精確度)：檢索出來的條目(比如:文檔、網(wǎng)頁等)有多少是準確的

Recall (召回率、查全率)：所有準確的條目有多少被檢索出來

下面這張圖介紹True Positive，F(xiàn)alse Negative等常見的概念，P和R也往往和它們聯(lián)系起來。

	相關(guān)(Relevant),正類	無關(guān)(NonRelevant),負類
被檢索到(Retrieved)	true positives(TP 正類判定為正類 , 分明是A)	false positives(FP 負類判定為正類,"存?zhèn)?, 分明是B卻判斷為A)
未被檢索到(Not Retrieved)	false negatives(FN 正類判定為負類,"去真" ,分明是A卻判斷為B)	true negatives(TN 負類判定為負類 , 分明是B)