【書摘】數(shù)據(jù)挖掘中的算法

非著名問天 2022-07-18 發(fā)布于內(nèi)蒙古

展開全文

今天給大家推薦《數(shù)據(jù)挖掘：你必須知道的32個(gè)經(jīng)典案例》，并摘取書中的一些數(shù)據(jù)清洗和數(shù)據(jù)分析算法推送給大家。

1.數(shù)據(jù)清洗的作用：填充空缺值、平滑噪點(diǎn)、識別顯著離群點(diǎn)。在個(gè)別空缺值處理中通常采用人工規(guī)則、平均值、中位數(shù)、拉格郎日插值、牛頓插值、線性規(guī)則求解等方法。

2.噪聲平滑：其中箱形技術(shù)用得比較多，平滑方法有滑動(dòng)窗口法、按箱平均值/中值平滑法等。

3.離群點(diǎn)檢測：其經(jīng)典算法是K近鄰算法（KNN）,還有一元/多元回歸分析來擬合光滑數(shù)據(jù)，從而使噪聲點(diǎn)暴露出來。

4.數(shù)據(jù)規(guī)約：用于降低數(shù)據(jù)量、提取核心信息。其中屬性/特征維度規(guī)約是刪除不相關(guān)/不重要的屬性來減少數(shù)據(jù)量，通常方法是子集選擇和樹形合并，即通過決策樹歸納、前向選擇、向后刪除等完成集合篩選。

5.數(shù)據(jù)壓縮：小波變換是數(shù)據(jù)壓縮領(lǐng)域的典型算法，對于有稀疏、傾斜等情況出現(xiàn)的數(shù)據(jù)集，基于小波變換的有損壓縮方法往往可以得到很好的結(jié)果。主成分分析方法（PCA）將原有的多維特征根據(jù)重要性排序，只提取重點(diǎn)關(guān)注的特征，它和它的擴(kuò)展算法在實(shí)際中應(yīng)用非常廣泛。

6.數(shù)值規(guī)約：小到將整型數(shù)據(jù)屬性類型從long變?yōu)?/span>int，大到使用對數(shù)線性模型等方法將數(shù)據(jù)劃分為多維空間并進(jìn)行相應(yīng)規(guī)約。

7.數(shù)據(jù)離散：用于解決特征中連續(xù)特征比例過高的問題，其主要思路是基于分箱或直方圖分析的方法將連續(xù)特征變?yōu)殡x散特征，從而達(dá)到減少連續(xù)特征的目的。這種方法對于處理連續(xù)特征比較困難的ID3決策樹算法，有非常大的幫助。

8.異常值：遠(yuǎn)離大部分樣本數(shù)據(jù)的數(shù)據(jù)值。

9.對比分析：常見的數(shù)據(jù)分析方法，通常局限于數(shù)值型數(shù)據(jù)中。它將兩個(gè)以上的相似數(shù)據(jù)進(jìn)行比較和分析。最重要的是選擇合適的對比標(biāo)準(zhǔn)。

10.相關(guān)性分析：對存在關(guān)聯(lián)關(guān)系的變量進(jìn)行分析，進(jìn)而用量化的方式判斷變量的相關(guān)性程度的分析方法。缺點(diǎn)：對數(shù)值型數(shù)據(jù)分析效果較好，對其他數(shù)據(jù)則可能出現(xiàn)偏差。同時(shí)還受數(shù)據(jù)樣本量影響較大，較小的樣本相關(guān)系數(shù)常常較高。

11.相關(guān)系數(shù)：經(jīng)典方法有皮爾遜相關(guān)系數(shù)、肯德爾相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、等級相關(guān)系數(shù)、偏相關(guān)系數(shù)。

12.回歸分析法：是經(jīng)典的因果分析法。根據(jù)自變量個(gè)數(shù)的不同，將回歸分析分為一元回歸和多元回歸分析。回歸分析通過擬合線或面乃至高維結(jié)構(gòu)，使得數(shù)據(jù)點(diǎn)到線、面和高維結(jié)構(gòu)的距離最小。

13.皮爾遜相關(guān)系數(shù):也叫簡單相關(guān)系數(shù)，是一種用途最廣泛的相關(guān)系數(shù)。對絕大多數(shù)數(shù)值型變量都適用。皮爾遜相關(guān)系數(shù)總是在-1~1之間，系數(shù)為正表示兩個(gè)變量正相關(guān)，即一個(gè)變量增大時(shí)另外一個(gè)變量也增大。系數(shù)為負(fù)表示兩個(gè)變量為負(fù)相關(guān)，即一個(gè)變量增大時(shí)另外一個(gè)變量則會減小。系數(shù)大于0.6表示兩個(gè)變量為強(qiáng)關(guān)聯(lián)，系數(shù)小于0.4表示兩個(gè)變量為弱關(guān)聯(lián)。

14.時(shí)間序列分析：根據(jù)過去的變化趨勢預(yù)測未來的發(fā)展，通常用于研究一定時(shí)間內(nèi)的社會事務(wù)問題或金融經(jīng)濟(jì)問題。在時(shí)間序列分析中，歷史數(shù)據(jù)需要滿足三條前提假設(shè)：過去的數(shù)據(jù)規(guī)律會延續(xù)到未來；數(shù)據(jù)呈現(xiàn)明顯的周期性；在某一周期內(nèi)，數(shù)據(jù)的變化趨勢符合某種規(guī)律。根據(jù)所平均的數(shù)據(jù)是全部數(shù)據(jù)還是部分?jǐn)?shù)據(jù)，時(shí)間序列模型可分為序時(shí)平均數(shù)法和移動(dòng)平均法；根據(jù)不加權(quán)還是令時(shí)間較近的數(shù)據(jù)權(quán)重更大，時(shí)間序列模型可以分為簡單平均法和加權(quán)平均法。

缺點(diǎn)：對于周期性和趨勢性的變化不敏感，只有周期性和趨勢性都符合固定規(guī)律的數(shù)據(jù)才能夠得到可信的時(shí)間序列模型。

15.線性回歸分析：一種研究自變量和因變量之間因果關(guān)系的分析方法。當(dāng)自變量只有一個(gè)時(shí)，稱為一元線性回歸分析，自變量有多個(gè)時(shí)，稱為多元線性回歸分析。線性回歸分析使用最小二乘法度量散點(diǎn)到回歸線的距離，并尋找使得直線到所有散點(diǎn)的距離之和達(dá)到最小的解，以此為依據(jù)寫出距離所有散點(diǎn)最近的回歸線的方程。

缺點(diǎn)：只能用于分析線性關(guān)系。每個(gè)自變量和因變量所成的散點(diǎn)圖都應(yīng)當(dāng)圍繞一條直線波動(dòng)。對于非線性分布，如指數(shù)分布或二次分布，就應(yīng)當(dāng)將其轉(zhuǎn)化為線性分布后再精選分析。線性回歸分析要求所有的自變量相互獨(dú)立。若自變量之間有相關(guān)性，就需要使用因子分析等方法消除自變量相關(guān)帶來的影響。

16.Logistic回歸分析：適用于因變量為分類變量的情況。使用一個(gè)對數(shù)轉(zhuǎn)換，將事件發(fā)生的概率轉(zhuǎn)換為成因變量，是一種非線性回歸。具有靈活多變可擬合復(fù)雜的曲線的特點(diǎn)。能夠比較不同自變量對因變量影響的強(qiáng)弱。也能比較不同自變量組合有什么差別。

缺點(diǎn)：適用范圍不廣泛，通常用于流行病學(xué)研究。也用于研究社會科學(xué)問題。

17.降維算法：提取數(shù)據(jù)中重要特征并摒棄無用特征，以加快計(jì)算速度并為后序分析提供類似數(shù)據(jù)清洗的工作。

18.線性降維算法：是降維算法中最早被使用的算法。從子集選擇（屬性選擇）開始，慢慢演變發(fā)展出因子分析、主成分分析等可解釋性強(qiáng)且效果不錯(cuò)的算法。

缺點(diǎn)：忽略了特征之間的非線性關(guān)系。

19.因子分析：基本思想是根據(jù)特征相關(guān)性將原始特征分組，使得同組內(nèi)的特征相關(guān)性盡可能高，不同組內(nèi)的特征相關(guān)性盡可能低。此算法在心理學(xué)領(lǐng)域得到廣泛應(yīng)用。由于因子分析需要預(yù)先做好的假設(shè)，對誤差有特殊要求等原因，它的計(jì)算需要很多輪迭代，非常復(fù)雜。因子分析也是降維算法明星。因子分析可以提前將多個(gè)相關(guān)的自變量映射成較少的不相關(guān)的自變量，從而提高回歸分析的準(zhǔn)確性。

缺點(diǎn)：構(gòu)建因子模型需要非常大的計(jì)算量，因此因子分析局限于小樣本數(shù)據(jù)分析；因子分析十分依賴數(shù)據(jù)真實(shí)性；因子分析依賴數(shù)據(jù)分析師經(jīng)驗(yàn)，若將不該放在一起的變量放到一個(gè)因子中，結(jié)論就會大錯(cuò)特錯(cuò)。

20.主成分分析法：是目前典型降維算法，擴(kuò)展得到奇異值分解法以及判別分析法。在減少數(shù)據(jù)集特征維度的同時(shí)，盡可能保持?jǐn)?shù)據(jù)集對方差貢獻(xiàn)最大的特征。其基本步驟：（1）數(shù)據(jù)去中心化；（2）構(gòu)建協(xié)方差矩陣；（3）做特征值分解，得到特征值和對應(yīng)的特征向量；（4）將特征值從大到小排序，特征值大的維度即對應(yīng)數(shù)據(jù)集中的重要特征，特征值小的維度即對應(yīng)數(shù)據(jù)集中的次要特征，對數(shù)據(jù)集特征進(jìn)行篩除。

21.非線性降維算法：典型的非線性降維算法有“核方法+線性降維算法”、“流形學(xué)習(xí)”等。

22.核方法+線性降維算法：通過利用核函數(shù)的性質(zhì)將低維輸入空間（歐式空間或離散集合）映射到高維特征空間（希爾伯特空間），在新的特征空間中數(shù)據(jù)即從線性不可分變成了線性可分了。

23.流形學(xué)習(xí)：等距離映射是流形學(xué)習(xí)代表算法，它的作用是將流形上的位置映射到歐式空間中（如將一個(gè)三維足球的每塊格子映射到二維平面中），它是多維尺度分析方法的改進(jìn)算法，用測地線距離代替歐式距離作為空間距離的表示。

缺點(diǎn)：由于流形方法是基于數(shù)據(jù)分布在一個(gè)流形上的假設(shè)，而實(shí)際情況并不能確定這個(gè)假設(shè)的存在。

24.粗糙集算法：可以同時(shí)研究多個(gè)自變量和多個(gè)因變量之間的關(guān)系。使用粗糙集算法的前提是將原始數(shù)據(jù)離散化為算法可以識別的數(shù)據(jù)。粗糙集可以完成屬性簡約、測度屬性重要性、提取決策規(guī)則工作。該算法具有計(jì)算速度快、準(zhǔn)確度高、結(jié)果易于理解等優(yōu)點(diǎn)。

缺點(diǎn)：決策過程十分簡單，決策規(guī)則不夠穩(wěn)定，不同的數(shù)據(jù)集會導(dǎo)致不同的決策規(guī)則；當(dāng)訓(xùn)練數(shù)據(jù)增多時(shí)，粗糙集的精確度會得到提高，這意味著粗糙集需要大量有效的訓(xùn)練數(shù)據(jù)；粗糙集只能處理離散數(shù)據(jù)，如果不能較合理地將連續(xù)數(shù)據(jù)離散化，將極大影響粗糙集的結(jié)果；當(dāng)條件屬性過多時(shí)，屬性組合會無限多，簡約屬性將變得十分困難。

25.最優(yōu)尺度分析：通過主成分分析法來描述多個(gè)分類變量不同水平之間的相關(guān)性，它用圖形反應(yīng)變量之間的關(guān)系，兼具理論基礎(chǔ)堅(jiān)實(shí)和結(jié)果易解讀兩方面優(yōu)點(diǎn)，在市場細(xì)分、產(chǎn)品定位、品牌形象、顧客滿意度研究方面都有深遠(yuǎn)影響。

缺點(diǎn)：不能和其他分析方法產(chǎn)生協(xié)作關(guān)系，也不能像因子分析那樣為其他分析方法進(jìn)行數(shù)據(jù)處理工作；能分析的變量數(shù)有限；不能回答定量問題，也不能回答兩個(gè)變量的相關(guān)程度有多高。

26.遺傳算法：是一種梯度上升的最優(yōu)化算法，每次繁衍都會得到比上一次繁衍更好的結(jié)果，適合解決各類復(fù)雜的非線性問題。遺傳算法不作用于單獨(dú)的解，而是從一組解迭代到另一組解；遺傳算法不需要過多的先驗(yàn)知識，只需設(shè)定號適應(yīng)度函數(shù)即可完成求解過程；遺傳算法不會陷入局部最優(yōu)解，而是直接得出全局最優(yōu)解；遺傳算法能提供的解不是唯一的。遺傳算法具有高度并行性，因此可以在分布式系統(tǒng)上實(shí)現(xiàn)遺傳算法，可以處理更龐大的數(shù)據(jù)量。

缺點(diǎn)：遺傳算法的數(shù)學(xué)基礎(chǔ)不完善，它主要使用概率知識來求得最優(yōu)解；遺傳算法過度依賴二進(jìn)制表達(dá)，不使用二進(jìn)制表達(dá)時(shí)如何推廣遺傳算法仍是一個(gè)難題。工程師嘗試使用格雷編碼和實(shí)數(shù)編碼表示染色體。

27.決策樹分析：決策樹是一種電信的分類方法，是最著名的模式識別算法之一。它能夠從數(shù)據(jù)集中抽取有價(jià)值的規(guī)則，并廣泛用于各類決策問題。與粗糙集和遺傳算法不同，決策樹在判斷決策條件時(shí)，是按照順序進(jìn)行判斷的。即，決策樹的最終結(jié)果和決策樹的條件羅列順序有關(guān)。即便數(shù)據(jù)集和決策變量都完全相同，但改變決策條件的順序，就有可能改變決策結(jié)果。為了得到最優(yōu)的決策結(jié)果，需要引入熵和信息增益的概念。在二分類決策熵中，某個(gè)變量所包含的變量越單一，其熵就越低；某個(gè)變量所包含的變量越混雜，其熵就越高。只有熵還不足以確定決策樹中變量的排序，而信息增益算法則可計(jì)算每個(gè)變量的數(shù)值。在安排決策樹時(shí)可按照信息增益大到小的順序?qū)Q策變量加以排序，并從信息增益較大的變量開始進(jìn)行決策，即可保證決策樹的結(jié)果最優(yōu)化。決策樹是一種非常實(shí)用的逼近離散函數(shù)值的方法。本質(zhì)上是一種映射關(guān)系，將對象的一組屬性和對象的值映射到一起，就是一組映射關(guān)系。決策樹能夠解決分類問題、預(yù)測問題和回歸問題。決策樹具有適合處理多類變量、對異常值不敏感、準(zhǔn)確度高等優(yōu)點(diǎn)。

缺點(diǎn)：一個(gè)決策樹僅能輸出一個(gè)結(jié)果，需要輸出多個(gè)結(jié)果時(shí)，需要構(gòu)建多個(gè)決策樹。決策樹在訓(xùn)練時(shí)需要大量的數(shù)據(jù)和計(jì)算空間。為了得到最好的決策變量排序順序，決策樹需要反復(fù)計(jì)算變量的熵和信息增益。決策樹的剪枝技術(shù)幫助決策樹使用最少的節(jié)點(diǎn)完成分類的任務(wù)，但錯(cuò)誤的剪枝會使得決策樹的結(jié)果準(zhǔn)確性大幅度下降，同時(shí)剪枝過程需要大量的計(jì)算。

28.K均值聚類分析：最簡單的一種聚類方法，在二維平面或者三維平面上，聚類結(jié)果最直觀易理解。K均值聚類中聚類的個(gè)數(shù)由數(shù)據(jù)分析師手動(dòng)指定，一般是根據(jù)原始數(shù)據(jù)的形成散點(diǎn)圖觀察得到。有的很容易得到，有的需要反復(fù)嘗試。K均值聚類是一種迭代算法，需多次調(diào)整各個(gè)類別的中心和所屬的散點(diǎn)。K均值聚類原理簡單，實(shí)現(xiàn)程序簡潔，能處理大多數(shù)的分類問題。優(yōu)點(diǎn)是計(jì)算速度快、易解釋性強(qiáng)、能夠處理多種數(shù)據(jù)類型。

缺點(diǎn)：只對圓形或橢圓形的散點(diǎn)分布敏感，若三代分布式不規(guī)則的月牙形或者環(huán)形，K均值聚類就會犯錯(cuò)，此時(shí)適合使用密度聚類方法；K均值聚類要求每個(gè)類別中的散點(diǎn)數(shù)量都差不多。如果有一小部分點(diǎn)單獨(dú)聚成一類，K均值聚類就會把它們打散并和其他類別合并；K均值聚類需要手動(dòng)設(shè)定聚類個(gè)數(shù)，當(dāng)處于二維或者三維時(shí)，問題不大，但處于更高維數(shù)時(shí)，人眼就不能直觀判斷聚類結(jié)果是否合理；K均值聚類對噪聲點(diǎn)和離群值較為敏感，以及要求一定數(shù)據(jù)量，否則聚類結(jié)果就不理想。

29.順序分析：是關(guān)聯(lián)分析的一種，能夠在大量數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)性或相關(guān)性。順序分析關(guān)心數(shù)據(jù)的縱向排列，即一件事情發(fā)生后緊接著會發(fā)生什么事情。順序分析所使用的頻繁模式算法是一種實(shí)用且簡單的算法，比如輸入法利用順序分析挖掘用戶固有的輸入習(xí)慣。

缺點(diǎn)：結(jié)果準(zhǔn)確度和計(jì)算效率是順序分析中一個(gè)不可調(diào)和的矛盾；順序分析僅能發(fā)現(xiàn)事件和事件之間的相關(guān)性，而不能發(fā)現(xiàn)一個(gè)事件引發(fā)另外一個(gè)事件的原因；順序分析只有在樣本積累足夠多時(shí)才能起到作用。

30.文本分析：是一系列算法的合稱，需要完成分詞、清洗、信息提取等工作。這些可以通過K均值算法、支持向量機(jī)或樸素貝葉斯算法完成。

31.協(xié)同過濾：是利用集體智慧編程的一種典型算法，但它保留了一定的個(gè)體特征，因此可以用于預(yù)測每個(gè)人的品味偏好。優(yōu)點(diǎn)在于能夠基于抽象概念和信息來過濾某些難以分析的內(nèi)容。為用戶瀏覽到更多感興趣的品牌提供了可能。

32.支持向量機(jī)：能夠同時(shí)最小化經(jīng)驗(yàn)誤差并最大化幾何誤差，在保證分類效果的同時(shí)，讓兩個(gè)類別的樣本盡可能遠(yuǎn)離。和線性分類器相比，它具有較高的精度和靈敏度，因此常常應(yīng)用于對分類結(jié)果要求較高的地方。在信息生物學(xué)、工業(yè)勘探和文本分析領(lǐng)域都有重要應(yīng)用。

33.感知器神經(jīng)網(wǎng)絡(luò)：一種基礎(chǔ)神經(jīng)網(wǎng)絡(luò)，使用BP算法優(yōu)化后，感知器神經(jīng)網(wǎng)絡(luò)將具有更好的非線性映射能力、泛化能力和容錯(cuò)能力，這是由于BP算法利用了誤差的反向傳播思想，將誤差平攤給隱含層。

缺點(diǎn)：不能準(zhǔn)確預(yù)測較長時(shí)間內(nèi)的函數(shù)；神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間較長，當(dāng)數(shù)據(jù)較少且隱含層和神經(jīng)元都較少時(shí)，神經(jīng)網(wǎng)絡(luò)能夠在幾分鐘內(nèi)訓(xùn)練好，并且能夠很好解決問題；當(dāng)數(shù)據(jù)很多、隱含層很多、神經(jīng)元很多，即啟動(dòng)典型的深度學(xué)習(xí)模式時(shí)，神經(jīng)網(wǎng)絡(luò)就需要訓(xùn)練很長時(shí)間；另外神經(jīng)網(wǎng)絡(luò)的好壞依賴于初始值的設(shè)定，這是因?yàn)檎`差曲面會將神經(jīng)網(wǎng)絡(luò)引入局部最優(yōu)值。

34.自主神經(jīng)網(wǎng)絡(luò)：將網(wǎng)絡(luò)切割為一個(gè)一個(gè)小的部分，每部分對應(yīng)一種模式，這種結(jié)構(gòu)使自組織神經(jīng)網(wǎng)絡(luò)在分析比較、尋找規(guī)律和正確歸類等方面具有特殊的優(yōu)勢。其最重要的部分在于設(shè)計(jì)神經(jīng)元個(gè)數(shù)和神經(jīng)元排列方式。
35.RBM算法：全稱是受限玻爾茲曼機(jī)算法，其一個(gè)重要用途就是為神經(jīng)網(wǎng)絡(luò)做預(yù)處理，替神經(jīng)網(wǎng)絡(luò)找出最佳的初始值。RBM算法利用了統(tǒng)計(jì)熱力學(xué)的思想。它將可視層的數(shù)據(jù)轉(zhuǎn)化為隱含層的數(shù)據(jù)，通過監(jiān)督學(xué)習(xí)的方法進(jìn)行分類或回歸。由于隱含層的節(jié)點(diǎn)數(shù)一般少于可視層，因此RBM算法就完成了降維工作；通過能量函數(shù)的最優(yōu)化，RBM算法可以求出自變量和因變量之間的權(quán)重矩陣和偏移量，用兩者作為神經(jīng)網(wǎng)絡(luò)的初始值，可以是神經(jīng)網(wǎng)絡(luò)進(jìn)入全局最優(yōu)值點(diǎn)，而不會陷入局部最優(yōu)值點(diǎn)處。RBM算法能夠計(jì)算自變量和因變量的聯(lián)合概率，以及兩者構(gòu)成的條件概率。有了這些概率，RBM算法可以像貝葉斯網(wǎng)絡(luò)或者隱馬爾可夫鏈那樣計(jì)算每種狀態(tài)出現(xiàn)的概率，即作為一個(gè)生成模型或分類模型來使用。最大優(yōu)點(diǎn)是能求得全局最優(yōu)值

36.判別分析：是一種典型的以統(tǒng)計(jì)理論為基礎(chǔ)的分類方法，它所使用的降維方法和主成分分析十分類似，但主成分分析的目標(biāo)是將不同維度的信息整合為一個(gè)維度，而判別分析的目標(biāo)是將不同類別的數(shù)據(jù)盡量分離。和回歸分析類似，判別分析有十分嚴(yán)苛的假設(shè)條件。判別分析假設(shè)分組類型在兩種以上，且每個(gè)類別都具有一定的樣本數(shù)量；各組樣本的協(xié)方差矩陣相等，且各組樣本服從正態(tài)分布；判別分析中涉及的各個(gè)變量不能相關(guān)。判別分析擅長處理那些樣本數(shù)據(jù)量介于多和少之間、自變量個(gè)數(shù)較多問題。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：非著名問天 > 《我的文件夾》

舉報(bào)/認(rèn)領(lǐng)