|
 如果想從事數(shù)據(jù)科學,但是又沒有數(shù)學背景,那么有多少數(shù)學知識是做數(shù)據(jù)科學所必須的? 統(tǒng)計學是學習數(shù)據(jù)科學繞不開的一門數(shù)學基礎課程,但數(shù)據(jù)科學也經(jīng)常會涉及數(shù)學中的其他領域。數(shù)據(jù)科學使用算法進行預測,這些算法稱為機器學習算法,有數(shù)百種之多。有人總結(jié)了數(shù)據(jù)科學中最常用的6種算法,已經(jīng)掌握它們分別需要哪些數(shù)學知識。樸素貝葉斯分類器(Naive Bayes classifier)是一種簡單的概率分類器,它基于特征之間相互獨立的假設,以貝葉斯定理為基礎。其中A、B表示兩個事件,且P(B)不等于0。各個部分具體的含義為:1、P(A|B)是條件概率,它是事件B發(fā)生后事件A發(fā)生的概率。2、P(B|A)也是一個條件概率,它是事件A發(fā)生后事件B發(fā)生的概率。事件發(fā)生的可能性 發(fā)生了 是真的。3、P(A)和P(B)是各自發(fā)生的概率,A、B兩個事件彼此獨立。 如果你想要了解樸素貝葉斯分類器,以及貝葉斯定理的所有用法,只需學習概率課程就足夠了。 線性回歸是最基本的回歸類型,它用來理解兩個連續(xù)變量之間的關(guān)系。在簡單線性回歸的情況下,獲取一組數(shù)據(jù)點并繪制可用于預測未來的趨勢線。線性回歸是參數(shù)化機器學習的一個例子,訓練過程最終使機器學習找到最接近于訓練集的數(shù)學函數(shù),然后可以使用該函數(shù)來預測未來的結(jié)果。在機器學習中,數(shù)學函數(shù)被稱為模型。在線性回歸的情況下,模型可以表示為:a1, a1, ……,an表示對數(shù)據(jù)集的參數(shù)值,x1, x1, ……,xn表示在線性模型中使用的特征值。線性回歸的目標是找到描述特征值和目標值之間關(guān)系的最佳參數(shù)值。換句話說,就是找到一條最適合數(shù)據(jù)的線,可以外推趨勢以預測未來結(jié)果。為了找到線性回歸模型的最佳參數(shù),我們希望讓殘差平方和(residual sum of squares)最小化。殘差通常被稱為誤差,它用來描述預測值和真實值之間的差異。殘差平方和的公式可表示為: 如果你只想粗略地了解,基礎統(tǒng)計學課程就可以了。殘差平方和的公式可以在大多數(shù)高級統(tǒng)計課程中學到。 邏輯回歸(Logistic regression)側(cè)重于二元分類,即輸出結(jié)果只有兩種情況的概率。與線性回歸一樣,邏輯回歸是參數(shù)化機器學習的一個例子。因此,這些機器學習算法的訓練過程的結(jié)果是找到最接近訓練集的數(shù)學函數(shù)模型。但是線性回歸模型輸出的是一組實數(shù),而邏輯回歸模型輸出的是概率值。在邏輯回歸的過程中還會用到sigmoid函數(shù),它會把所有值壓縮到0~1的范圍之間。
這一部分包含的知識有指數(shù)函數(shù)和概率,你需要對代數(shù)和概率論有充分的理解。如果想深入了解,建議學習概率論、離散數(shù)學或?qū)嵎治觥?/span> 神經(jīng)網(wǎng)絡是一種機器學習模型,它們受到人類大腦中神經(jīng)元結(jié)構(gòu)的極大啟發(fā)。神經(jīng)網(wǎng)絡模型使用一系列激活單元(稱為神經(jīng)元)來預測某些結(jié)果。神經(jīng)元將輸入應用于轉(zhuǎn)換函數(shù),并返回輸出。神經(jīng)網(wǎng)絡擅長獲取數(shù)據(jù)中的非線性關(guān)系,并幫助我們完成音頻和圖像處理等任務。雖然存在許多不同類型的神經(jīng)網(wǎng)絡(比如卷積神經(jīng)網(wǎng)絡、前饋神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等),但它們都依賴于轉(zhuǎn)換輸入生成輸出的基本概念。 在上圖中,線條將每個圓圈連接到另一個圓圈。在數(shù)學中,這就是所謂的圖,一種由邊連接的節(jié)點組成的數(shù)據(jù)結(jié)構(gòu)。神經(jīng)網(wǎng)絡的核心是一個系統(tǒng),它接收數(shù)據(jù),進行線性代數(shù)運算,然后輸出答案。線性代數(shù)是理解神經(jīng)網(wǎng)絡的關(guān)鍵,它通過矩陣和向量空間來表示線性方程。因為線性代數(shù)涉及矩陣表示線性方程,所以矩陣是理解神經(jīng)網(wǎng)絡核心部分必須知道的基本知識。矩陣是由數(shù)字、符號或表達式組成的矩形陣列,按行和列排列。例如: 神經(jīng)網(wǎng)絡,每個特征都表示為輸入神經(jīng)元。每個特征的數(shù)值乘以神經(jīng)元的權(quán)重向量獲得輸出。在數(shù)學上,該過程是這樣的: 其中X是一個m×n矩陣,m是神經(jīng)元輸入的數(shù)量,n神經(jīng)元輸出的數(shù)量。a是權(quán)重向量,aT是a的轉(zhuǎn)置,b是偏置。偏置(bias)通過向左或向右移動S形函數(shù)來影響神經(jīng)網(wǎng)絡輸出,以便對某些數(shù)據(jù)集進行更好的預測。轉(zhuǎn)置(Transpose)是一個線性代數(shù)術(shù)語,它的意思是把矩陣的行變成列、列變成行。在所有特征列和權(quán)重相乘之后,調(diào)用激活函數(shù)來確定神經(jīng)元是否被激活。激活函數(shù)有三種主要類型:RELU函數(shù),sigmoid函數(shù)和雙曲正切函數(shù)。sigmoid函數(shù)我們已經(jīng)知道了。RELU函數(shù)是一個簡潔的函數(shù),當輸入x大于0的時候輸出x,當輸入x小于0的時候輸出0。雙曲正切函數(shù)與sigmoid函數(shù)類似,只是它用來約束-1和1之間的數(shù)值。離散數(shù)學和線性代數(shù)課程是必須的。為了深入理解,還需要學習圖論、矩陣論、多元微積分和實分析課程。 K-平均聚類(K-Means Clustering)算法是一種無監(jiān)督機器學習,用于對未標記數(shù)據(jù)進行分類。該算法通過在數(shù)據(jù)中查找組來工作,其中組由變量k表示。它根據(jù)提供的特征將每個數(shù)據(jù)點分配給k組中的一個。K-平均聚類依賴于整個算法中的距離概念,將數(shù)據(jù)點“分配”到聚類。在數(shù)學中,描述集合中任意兩個元素之間距離的指標有兩種:歐幾里德距離和出租車距離(又叫曼哈頓距離)。其中,(x1, y1)、(x2, y2 )是笛卡爾平面上的坐標點。雖然歐幾里得距離標準已經(jīng)足夠,但在某些情況下它不起作用。假設在城市街道上乘坐出租車,那么你是沒法走斜線的,只能走橫平豎直的街道,這時候我們可以使用出租車距離:這部分牽涉到的知識比較少。實際上你只需要知道加法和減法和代數(shù)的基礎知識,就可以掌握距離公式。但是為了深入理解每種距離的基本幾何形狀,建議學習歐氏幾何和非歐幾何。為了深入理解指標和度量空間的含義,我會閱讀數(shù)學分析并參加實分析課程。 決策樹是一種類似流程圖的樹結(jié)構(gòu),它使用分支方法來說明決策的每個可能結(jié)果。樹中的每個節(jié)點代表對特定變量的測試,每個分支都是該測試的結(jié)果。決策樹依賴于信息論(information theory)。在信息論中,人們對某個主題了解越多,可以知道的新信息就越少。信息論的關(guān)鍵之一是熵(entropy)。熵是變量不確定性的一種度量,具體形式為: 在上面的公式中,P(x)是數(shù)據(jù)集中特征出現(xiàn)的概率。b是對數(shù)函數(shù)的底,它常見的值有2、e和10。前面的Σ符號表示求和,它的上下方分別寫著求和的上限和下限。在計算熵之后,我們可以通過信息增益(information gain)構(gòu)造決策樹,它告訴哪種拆分方式會最大程度地減少熵。信息增益的公式如下: 信息增益用于衡量可以獲得多少“信息”。在決策樹中,我們可以計算數(shù)據(jù)集中每一列的信息增益,找到哪一列能為我們提供最大的信息增益,然后在該列上進行拆分。基本的代數(shù)和概率知識是了解決策樹所必須的。 原文地址: https://www./blog/math-in-data-science/———— 編輯 ∑Gemini
|