數(shù)據(jù)科學中的6個基本算法，掌握它們要學習哪些知識

ThinkfunQd 2019-09-12

展開全文

如果想從事數(shù)據(jù)科學，但是又沒有數(shù)學背景，那么有多少數(shù)學知識是做數(shù)據(jù)科學所必須的？

統(tǒng)計學是學習數(shù)據(jù)科學繞不開的一門數(shù)學基礎課程，但數(shù)據(jù)科學也經(jīng)常會涉及數(shù)學中的其他領域。

數(shù)據(jù)科學使用算法進行預測，這些算法稱為機器學習算法，有數(shù)百種之多。有人總結(jié)了數(shù)據(jù)科學中最常用的6種算法，已經(jīng)掌握它們分別需要哪些數(shù)學知識。

樸素貝葉斯分類器

樸素貝葉斯分類器（Naive Bayes classifier）是一種簡單的概率分類器，它基于特征之間相互獨立的假設，以貝葉斯定理為基礎。

貝葉斯定理的數(shù)學公式為：

其中A、B表示兩個事件，且P(B)不等于0。各個部分具體的含義為：

1、P(A|B)是條件概率，它是事件B發(fā)生后事件A發(fā)生的概率。

2、P(B|A)也是一個條件概率，它是事件A發(fā)生后事件B發(fā)生的概率。事件發(fā)生的可能性發(fā)生了是真的。

3、P(A)和P(B)是各自發(fā)生的概率，A、B兩個事件彼此獨立。

需要的數(shù)學知識：

如果你想要了解樸素貝葉斯分類器，以及貝葉斯定理的所有用法，只需學習概率課程就足夠了。

線性回歸

線性回歸是最基本的回歸類型，它用來理解兩個連續(xù)變量之間的關(guān)系。在簡單線性回歸的情況下，獲取一組數(shù)據(jù)點并繪制可用于預測未來的趨勢線。

線性回歸是參數(shù)化機器學習的一個例子，訓練過程最終使機器學習找到最接近于訓練集的數(shù)學函數(shù)，然后可以使用該函數(shù)來預測未來的結(jié)果。在機器學習中，數(shù)學函數(shù)被稱為模型。在線性回歸的情況下，模型可以表示為：

a1, a1, ……，an表示對數(shù)據(jù)集的參數(shù)值，x1, x1, ……，xn表示在線性模型中使用的特征值。

線性回歸的目標是找到描述特征值和目標值之間關(guān)系的最佳參數(shù)值。換句話說，就是找到一條最適合數(shù)據(jù)的線，可以外推趨勢以預測未來結(jié)果。

為了找到線性回歸模型的最佳參數(shù)，我們希望讓殘差平方和（residual sum of squares）最小化。殘差通常被稱為誤差，它用來描述預測值和真實值之間的差異。殘差平方和的公式可表示為：

y的“頭頂”加上^用來表示預測值，y表示真實值。

需要的數(shù)學知識：

如果你只想粗略地了解，基礎統(tǒng)計學課程就可以了。殘差平方和的公式可以在大多數(shù)高級統(tǒng)計課程中學到。

邏輯回歸

邏輯回歸（Logistic regression）側(cè)重于二元分類，即輸出結(jié)果只有兩種情況的概率。

與線性回歸一樣，邏輯回歸是參數(shù)化機器學習的一個例子。因此，這些機器學習算法的訓練過程的結(jié)果是找到最接近訓練集的數(shù)學函數(shù)模型。

但是線性回歸模型輸出的是一組實數(shù)，而邏輯回歸模型輸出的是概率值。在邏輯回歸的過程中還會用到sigmoid函數(shù)，它會把所有值壓縮到0~1的范圍之間。

需要的數(shù)學知識：

這一部分包含的知識有指數(shù)函數(shù)和概率，你需要對代數(shù)和概率論有充分的理解。如果想深入了解，建議學習概率論、離散數(shù)學或?qū)嵎治觥?/span>

神經(jīng)網(wǎng)

神經(jīng)網(wǎng)絡是一種機器學習模型，它們受到人類大腦中神經(jīng)元結(jié)構(gòu)的極大啟發(fā)。神經(jīng)網(wǎng)絡模型使用一系列激活單元（稱為神經(jīng)元）來預測某些結(jié)果。神經(jīng)元將輸入應用于轉(zhuǎn)換函數(shù)，并返回輸出。

神經(jīng)網(wǎng)絡擅長獲取數(shù)據(jù)中的非線性關(guān)系，并幫助我們完成音頻和圖像處理等任務。雖然存在許多不同類型的神經(jīng)網(wǎng)絡（比如卷積神經(jīng)網(wǎng)絡、前饋神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等），但它們都依賴于轉(zhuǎn)換輸入生成輸出的基本概念。

在上圖中，線條將每個圓圈連接到另一個圓圈。在數(shù)學中，這就是所謂的圖，一種由邊連接的節(jié)點組成的數(shù)據(jù)結(jié)構(gòu)。

神經(jīng)網(wǎng)絡的核心是一個系統(tǒng)，它接收數(shù)據(jù)，進行線性代數(shù)運算，然后輸出答案。

線性代數(shù)是理解神經(jīng)網(wǎng)絡的關(guān)鍵，它通過矩陣和向量空間來表示線性方程。因為線性代數(shù)涉及矩陣表示線性方程，所以矩陣是理解神經(jīng)網(wǎng)絡核心部分必須知道的基本知識。

矩陣是由數(shù)字、符號或表達式組成的矩形陣列，按行和列排列。例如：

它被稱為3×3矩陣，因為它有三行三列。

神經(jīng)網(wǎng)絡，每個特征都表示為輸入神經(jīng)元。每個特征的數(shù)值乘以神經(jīng)元的權(quán)重向量獲得輸出。在數(shù)學上，該過程是這樣的：

其中X是一個m×n矩陣，m是神經(jīng)元輸入的數(shù)量，n神經(jīng)元輸出的數(shù)量。a是權(quán)重向量，aT是a的轉(zhuǎn)置，b是偏置。

偏置（bias）通過向左或向右移動S形函數(shù)來影響神經(jīng)網(wǎng)絡輸出，以便對某些數(shù)據(jù)集進行更好的預測。轉(zhuǎn)置（Transpose）是一個線性代數(shù)術(shù)語，它的意思是把矩陣的行變成列、列變成行。

在所有特征列和權(quán)重相乘之后，調(diào)用激活函數(shù)來確定神經(jīng)元是否被激活。激活函數(shù)有三種主要類型：RELU函數(shù)，sigmoid函數(shù)和雙曲正切函數(shù)。

sigmoid函數(shù)我們已經(jīng)知道了。RELU函數(shù)是一個簡潔的函數(shù)，當輸入x大于0的時候輸出x，當輸入x小于0的時候輸出0。雙曲正切函數(shù)與sigmoid函數(shù)類似，只是它用來約束-1和1之間的數(shù)值。

需要的數(shù)學知識：

離散數(shù)學和線性代數(shù)課程是必須的。為了深入理解，還需要學習圖論、矩陣論、多元微積分和實分析課程。

K-平均聚類

K-平均聚類（K-Means Clustering）算法是一種無監(jiān)督機器學習，用于對未標記數(shù)據(jù)進行分類。該算法通過在數(shù)據(jù)中查找組來工作，其中組由變量k表示。它根據(jù)提供的特征將每個數(shù)據(jù)點分配給k組中的一個。

K-平均聚類依賴于整個算法中的距離概念，將數(shù)據(jù)點“分配”到聚類。在數(shù)學中，描述集合中任意兩個元素之間距離的指標有兩種：歐幾里德距離和出租車距離（又叫曼哈頓距離）。

其中，(x1, y1)、(x2, y2 )是笛卡爾平面上的坐標點。

雖然歐幾里得距離標準已經(jīng)足夠，但在某些情況下它不起作用。假設在城市街道上乘坐出租車，那么你是沒法走斜線的，只能走橫平豎直的街道，這時候我們可以使用出租車距離：

需要的數(shù)學知識：

這部分牽涉到的知識比較少。實際上你只需要知道加法和減法和代數(shù)的基礎知識，就可以掌握距離公式。但是為了深入理解每種距離的基本幾何形狀，建議學習歐氏幾何和非歐幾何。為了深入理解指標和度量空間的含義，我會閱讀數(shù)學分析并參加實分析課程。

決策樹

決策樹是一種類似流程圖的樹結(jié)構(gòu)，它使用分支方法來說明決策的每個可能結(jié)果。樹中的每個節(jié)點代表對特定變量的測試，每個分支都是該測試的結(jié)果。

決策樹依賴于信息論（information theory）。在信息論中，人們對某個主題了解越多，可以知道的新信息就越少。信息論的關(guān)鍵之一是熵（entropy）。熵是變量不確定性的一種度量，具體形式為：

在上面的公式中，P(x)是數(shù)據(jù)集中特征出現(xiàn)的概率。b是對數(shù)函數(shù)的底，它常見的值有2、e和10。前面的Σ符號表示求和，它的上下方分別寫著求和的上限和下限。

在計算熵之后，我們可以通過信息增益（information gain）構(gòu)造決策樹，它告訴哪種拆分方式會最大程度地減少熵。信息增益的公式如下：

信息增益用于衡量可以獲得多少“信息”。在決策樹中，我們可以計算數(shù)據(jù)集中每一列的信息增益，找到哪一列能為我們提供最大的信息增益，然后在該列上進行拆分。

需要的數(shù)學知識：

基本的代數(shù)和概率知識是了解決策樹所必須的。

原文地址：
https://www./blog/math-in-data-science/

————

編輯 ∑Gemini

來源：新浪專欄·創(chuàng)事記

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： ThinkfunQd > 《待分類》

舉報/認領

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

ThinkfunQd

關(guān)注對話

TA的最新館藏

這片石刻讓武則天重獲容顏，現(xiàn)代醫(yī)美巨頭花10億元試圖破解卻全部失敗
格局，決定你能走多遠
人為什么要選擇善良？
全世界“最聰明”的大腦都來練秋湖了！
英國發(fā)布人工智能賦能科學戰(zhàn)略
中醫(yī)一個葛根湯治息流感病毒

喜歡該文的人也喜歡更多

熱門閱讀換一換

电竞比分网-中国电竞赛事及体育赛事平台

數(shù)據(jù)科學中的6個基本算法，掌握它們要學習哪些知識