电竞比分网-中国电竞赛事及体育赛事平台

分享

【書摘】數(shù)據(jù)挖掘中的算法

 非著名問天 2022-07-18 發(fā)布于內(nèi)蒙古

今天給大家推薦《數(shù)據(jù)挖掘:你必須知道的32個(gè)經(jīng)典案例》,并摘取書中的一些數(shù)據(jù)清洗和數(shù)據(jù)分析算法推送給大家。

1.數(shù)據(jù)清洗的作用:填充空缺值、平滑噪點(diǎn)、識別顯著離群點(diǎn)。在個(gè)別空缺值處理中通常采用人工規(guī)則、平均值、中位數(shù)、拉格郎日插值、牛頓插值、線性規(guī)則求解等方法。

2.噪聲平滑:其中箱形技術(shù)用得比較多,平滑方法有滑動(dòng)窗口法、按箱平均值/中值平滑法等。

3.離群點(diǎn)檢測:其經(jīng)典算法是K近鄰算法(KNN,還有一元/多元回歸分析來擬合光滑數(shù)據(jù),從而使噪聲點(diǎn)暴露出來。

4.數(shù)據(jù)規(guī)約:用于降低數(shù)據(jù)量、提取核心信息。其中屬性/特征維度規(guī)約是刪除不相關(guān)/不重要的屬性來減少數(shù)據(jù)量,通常方法是子集選擇和樹形合并,即通過決策樹歸納、前向選擇、向后刪除等完成集合篩選。

5.數(shù)據(jù)壓縮:小波變換是數(shù)據(jù)壓縮領(lǐng)域的典型算法,對于有稀疏、傾斜等情況出現(xiàn)的數(shù)據(jù)集,基于小波變換的有損壓縮方法往往可以得到很好的結(jié)果。主成分分析方法(PCA)將原有的多維特征根據(jù)重要性排序,只提取重點(diǎn)關(guān)注的特征,它和它的擴(kuò)展算法在實(shí)際中應(yīng)用非常廣泛。

6.數(shù)值規(guī)約:小到將整型數(shù)據(jù)屬性類型從long變?yōu)?/span>int,大到使用對數(shù)線性模型等方法將數(shù)據(jù)劃分為多維空間并進(jìn)行相應(yīng)規(guī)約。

7.數(shù)據(jù)離散:用于解決特征中連續(xù)特征比例過高的問題,其主要思路是基于分箱或直方圖分析的方法將連續(xù)特征變?yōu)殡x散特征,從而達(dá)到減少連續(xù)特征的目的。這種方法對于處理連續(xù)特征比較困難的ID3決策樹算法,有非常大的幫助。

8.異常值:遠(yuǎn)離大部分樣本數(shù)據(jù)的數(shù)據(jù)值。

9.對比分析:常見的數(shù)據(jù)分析方法,通常局限于數(shù)值型數(shù)據(jù)中。它將兩個(gè)以上的相似數(shù)據(jù)進(jìn)行比較和分析。最重要的是選擇合適的對比標(biāo)準(zhǔn)。

10.相關(guān)性分析:對存在關(guān)聯(lián)關(guān)系的變量進(jìn)行分析,進(jìn)而用量化的方式判斷變量的相關(guān)性程度的分析方法。缺點(diǎn):對數(shù)值型數(shù)據(jù)分析效果較好,對其他數(shù)據(jù)則可能出現(xiàn)偏差。同時(shí)還受數(shù)據(jù)樣本量影響較大,較小的樣本相關(guān)系數(shù)常常較高。

11.相關(guān)系數(shù):經(jīng)典方法有皮爾遜相關(guān)系數(shù)、肯德爾相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)、等級相關(guān)系數(shù)、偏相關(guān)系數(shù)。

12.回歸分析法:是經(jīng)典的因果分析法。根據(jù)自變量個(gè)數(shù)的不同,將回歸分析分為一元回歸和多元回歸分析。回歸分析通過擬合線或面乃至高維結(jié)構(gòu),使得數(shù)據(jù)點(diǎn)到線、面和高維結(jié)構(gòu)的距離最小。

13.皮爾遜相關(guān)系數(shù):也叫簡單相關(guān)系數(shù),是一種用途最廣泛的相關(guān)系數(shù)。對絕大多數(shù)數(shù)值型變量都適用。皮爾遜相關(guān)系數(shù)總是在-1~1之間,系數(shù)為正表示兩個(gè)變量正相關(guān),即一個(gè)變量增大時(shí)另外一個(gè)變量也增大。系數(shù)為負(fù)表示兩個(gè)變量為負(fù)相關(guān),即一個(gè)變量增大時(shí)另外一個(gè)變量則會減小。系數(shù)大于0.6表示兩個(gè)變量為強(qiáng)關(guān)聯(lián),系數(shù)小于0.4表示兩個(gè)變量為弱關(guān)聯(lián)。

14.時(shí)間序列分析:根據(jù)過去的變化趨勢預(yù)測未來的發(fā)展,通常用于研究一定時(shí)間內(nèi)的社會事務(wù)問題或金融經(jīng)濟(jì)問題。在時(shí)間序列分析中,歷史數(shù)據(jù)需要滿足三條前提假設(shè):過去的數(shù)據(jù)規(guī)律會延續(xù)到未來;數(shù)據(jù)呈現(xiàn)明顯的周期性;在某一周期內(nèi),數(shù)據(jù)的變化趨勢符合某種規(guī)律。根據(jù)所平均的數(shù)據(jù)是全部數(shù)據(jù)還是部分?jǐn)?shù)據(jù),時(shí)間序列模型可分為序時(shí)平均數(shù)法和移動(dòng)平均法;根據(jù)不加權(quán)還是令時(shí)間較近的數(shù)據(jù)權(quán)重更大,時(shí)間序列模型可以分為簡單平均法和加權(quán)平均法。

缺點(diǎn):對于周期性和趨勢性的變化不敏感,只有周期性和趨勢性都符合固定規(guī)律的數(shù)據(jù)才能夠得到可信的時(shí)間序列模型。

15.線性回歸分析:一種研究自變量和因變量之間因果關(guān)系的分析方法。當(dāng)自變量只有一個(gè)時(shí),稱為一元線性回歸分析,自變量有多個(gè)時(shí),稱為多元線性回歸分析。線性回歸分析使用最小二乘法度量散點(diǎn)到回歸線的距離,并尋找使得直線到所有散點(diǎn)的距離之和達(dá)到最小的解,以此為依據(jù)寫出距離所有散點(diǎn)最近的回歸線的方程。

缺點(diǎn):只能用于分析線性關(guān)系。每個(gè)自變量和因變量所成的散點(diǎn)圖都應(yīng)當(dāng)圍繞一條直線波動(dòng)。對于非線性分布,如指數(shù)分布或二次分布,就應(yīng)當(dāng)將其轉(zhuǎn)化為線性分布后再精選分析。線性回歸分析要求所有的自變量相互獨(dú)立。若自變量之間有相關(guān)性,就需要使用因子分析等方法消除自變量相關(guān)帶來的影響。

16.Logistic回歸分析:適用于因變量為分類變量的情況。使用一個(gè)對數(shù)轉(zhuǎn)換,將事件發(fā)生的概率轉(zhuǎn)換為成因變量,是一種非線性回歸。具有靈活多變可擬合復(fù)雜的曲線的特點(diǎn)。能夠比較不同自變量對因變量影響的強(qiáng)弱。也能比較不同自變量組合有什么差別。

缺點(diǎn):適用范圍不廣泛,通常用于流行病學(xué)研究。也用于研究社會科學(xué)問題。

17.降維算法:提取數(shù)據(jù)中重要特征并摒棄無用特征,以加快計(jì)算速度并為后序分析提供類似數(shù)據(jù)清洗的工作。

18.線性降維算法:是降維算法中最早被使用的算法。從子集選擇(屬性選擇)開始,慢慢演變發(fā)展出因子分析、主成分分析等可解釋性強(qiáng)且效果不錯(cuò)的算法。

缺點(diǎn):忽略了特征之間的非線性關(guān)系。

19.因子分析:基本思想是根據(jù)特征相關(guān)性將原始特征分組,使得同組內(nèi)的特征相關(guān)性盡可能高,不同組內(nèi)的特征相關(guān)性盡可能低。此算法在心理學(xué)領(lǐng)域得到廣泛應(yīng)用。由于因子分析需要預(yù)先做好的假設(shè),對誤差有特殊要求等原因,它的計(jì)算需要很多輪迭代,非常復(fù)雜。因子分析也是降維算法明星。因子分析可以提前將多個(gè)相關(guān)的自變量映射成較少的不相關(guān)的自變量,從而提高回歸分析的準(zhǔn)確性。

缺點(diǎn):構(gòu)建因子模型需要非常大的計(jì)算量,因此因子分析局限于小樣本數(shù)據(jù)分析;因子分析十分依賴數(shù)據(jù)真實(shí)性;因子分析依賴數(shù)據(jù)分析師經(jīng)驗(yàn),若將不該放在一起的變量放到一個(gè)因子中,結(jié)論就會大錯(cuò)特錯(cuò)。

20.主成分分析法:是目前典型降維算法,擴(kuò)展得到奇異值分解法以及判別分析法。在減少數(shù)據(jù)集特征維度的同時(shí),盡可能保持?jǐn)?shù)據(jù)集對方差貢獻(xiàn)最大的特征。其基本步驟:(1)數(shù)據(jù)去中心化;(2)構(gòu)建協(xié)方差矩陣;(3)做特征值分解,得到特征值和對應(yīng)的特征向量;(4)將特征值從大到小排序,特征值大的維度即對應(yīng)數(shù)據(jù)集中的重要特征,特征值小的維度即對應(yīng)數(shù)據(jù)集中的次要特征,對數(shù)據(jù)集特征進(jìn)行篩除。

21.非線性降維算法:典型的非線性降維算法有“核方法+線性降維算法”、“流形學(xué)習(xí)”等。

22.核方法+線性降維算法:通過利用核函數(shù)的性質(zhì)將低維輸入空間(歐式空間或離散集合)映射到高維特征空間(希爾伯特空間),在新的特征空間中數(shù)據(jù)即從線性不可分變成了線性可分了。

23.流形學(xué)習(xí):等距離映射是流形學(xué)習(xí)代表算法,它的作用是將流形上的位置映射到歐式空間中(如將一個(gè)三維足球的每塊格子映射到二維平面中),它是多維尺度分析方法的改進(jìn)算法,用測地線距離代替歐式距離作為空間距離的表示。

缺點(diǎn):由于流形方法是基于數(shù)據(jù)分布在一個(gè)流形上的假設(shè),而實(shí)際情況并不能確定這個(gè)假設(shè)的存在。

24.粗糙集算法:可以同時(shí)研究多個(gè)自變量和多個(gè)因變量之間的關(guān)系。使用粗糙集算法的前提是將原始數(shù)據(jù)離散化為算法可以識別的數(shù)據(jù)。粗糙集可以完成屬性簡約、測度屬性重要性、提取決策規(guī)則工作。該算法具有計(jì)算速度快、準(zhǔn)確度高、結(jié)果易于理解等優(yōu)點(diǎn)。

缺點(diǎn):決策過程十分簡單,決策規(guī)則不夠穩(wěn)定,不同的數(shù)據(jù)集會導(dǎo)致不同的決策規(guī)則;當(dāng)訓(xùn)練數(shù)據(jù)增多時(shí),粗糙集的精確度會得到提高,這意味著粗糙集需要大量有效的訓(xùn)練數(shù)據(jù);粗糙集只能處理離散數(shù)據(jù),如果不能較合理地將連續(xù)數(shù)據(jù)離散化,將極大影響粗糙集的結(jié)果;當(dāng)條件屬性過多時(shí),屬性組合會無限多,簡約屬性將變得十分困難。

25.最優(yōu)尺度分析:通過主成分分析法來描述多個(gè)分類變量不同水平之間的相關(guān)性,它用圖形反應(yīng)變量之間的關(guān)系,兼具理論基礎(chǔ)堅(jiān)實(shí)和結(jié)果易解讀兩方面優(yōu)點(diǎn),在市場細(xì)分、產(chǎn)品定位、品牌形象、顧客滿意度研究方面都有深遠(yuǎn)影響。

缺點(diǎn):不能和其他分析方法產(chǎn)生協(xié)作關(guān)系,也不能像因子分析那樣為其他分析方法進(jìn)行數(shù)據(jù)處理工作;能分析的變量數(shù)有限;不能回答定量問題,也不能回答兩個(gè)變量的相關(guān)程度有多高。

26.遺傳算法:是一種梯度上升的最優(yōu)化算法,每次繁衍都會得到比上一次繁衍更好的結(jié)果,適合解決各類復(fù)雜的非線性問題。遺傳算法不作用于單獨(dú)的解,而是從一組解迭代到另一組解;遺傳算法不需要過多的先驗(yàn)知識,只需設(shè)定號適應(yīng)度函數(shù)即可完成求解過程;遺傳算法不會陷入局部最優(yōu)解,而是直接得出全局最優(yōu)解;遺傳算法能提供的解不是唯一的。傳算法具有高度并行性,因此可以在分布式系統(tǒng)上實(shí)現(xiàn)遺傳算法,可以處理更龐大的數(shù)據(jù)量。

缺點(diǎn):傳算法的數(shù)學(xué)基礎(chǔ)不完善,它主要使用概率知識來求得最優(yōu)解;傳算法過度依賴二進(jìn)制表達(dá),不使用二進(jìn)制表達(dá)時(shí)如何推廣遺傳算法仍是一個(gè)難題。工程師嘗試使用格雷編碼和實(shí)數(shù)編碼表示染色體。

27.決策樹分析:決策樹是一種電信的分類方法,是最著名的模式識別算法之一。它能夠從數(shù)據(jù)集中抽取有價(jià)值的規(guī)則,并廣泛用于各類決策問題。與粗糙集和遺傳算法不同,決策樹在判斷決策條件時(shí),是按照順序進(jìn)行判斷的。即,決策樹的最終結(jié)果和決策樹的條件羅列順序有關(guān)。即便數(shù)據(jù)集和決策變量都完全相同,但改變決策條件的順序,就有可能改變決策結(jié)果。為了得到最優(yōu)的決策結(jié)果,需要引入熵和信息增益的概念。在二分類決策熵中,某個(gè)變量所包含的變量越單一,其熵就越低;某個(gè)變量所包含的變量越混雜,其熵就越高。只有熵還不足以確定決策樹中變量的排序,而信息增益算法則可計(jì)算每個(gè)變量的數(shù)值。在安排決策樹時(shí)可按照信息增益大到小的順序?qū)Q策變量加以排序,并從信息增益較大的變量開始進(jìn)行決策,即可保證決策樹的結(jié)果最優(yōu)化。決策樹是一種非常實(shí)用的逼近離散函數(shù)值的方法。本質(zhì)上是一種映射關(guān)系,將對象的一組屬性和對象的值映射到一起,就是一組映射關(guān)系。決策樹能夠解決分類問題、預(yù)測問題和回歸問題。決策樹具有適合處理多類變量、對異常值不敏感、準(zhǔn)確度高等優(yōu)點(diǎn)。

缺點(diǎn):一個(gè)決策樹僅能輸出一個(gè)結(jié)果,需要輸出多個(gè)結(jié)果時(shí),需要構(gòu)建多個(gè)決策樹。決策樹在訓(xùn)練時(shí)需要大量的數(shù)據(jù)和計(jì)算空間。為了得到最好的決策變量排序順序,決策樹需要反復(fù)計(jì)算變量的熵和信息增益。決策樹的剪枝技術(shù)幫助決策樹使用最少的節(jié)點(diǎn)完成分類的任務(wù),但錯(cuò)誤的剪枝會使得決策樹的結(jié)果準(zhǔn)確性大幅度下降,同時(shí)剪枝過程需要大量的計(jì)算。

28.K均值聚類分析:最簡單的一種聚類方法,在二維平面或者三維平面上,聚類結(jié)果最直觀易理解。K均值聚類中聚類的個(gè)數(shù)由數(shù)據(jù)分析師手動(dòng)指定,一般是根據(jù)原始數(shù)據(jù)的形成散點(diǎn)圖觀察得到。有的很容易得到,有的需要反復(fù)嘗試。K均值聚類是一種迭代算法,需多次調(diào)整各個(gè)類別的中心和所屬的散點(diǎn)。K均值聚類原理簡單,實(shí)現(xiàn)程序簡潔,能處理大多數(shù)的分類問題。優(yōu)點(diǎn)是計(jì)算速度快、易解釋性強(qiáng)、能夠處理多種數(shù)據(jù)類型。

缺點(diǎn):只對圓形或橢圓形的散點(diǎn)分布敏感,若三代分布式不規(guī)則的月牙形或者環(huán)形,K均值聚類就會犯錯(cuò),此時(shí)適合使用密度聚類方法;K均值聚類要求每個(gè)類別中的散點(diǎn)數(shù)量都差不多。如果有一小部分點(diǎn)單獨(dú)聚成一類,K均值聚類就會把它們打散并和其他類別合并;K均值聚類需要手動(dòng)設(shè)定聚類個(gè)數(shù),當(dāng)處于二維或者三維時(shí),問題不大,但處于更高維數(shù)時(shí),人眼就不能直觀判斷聚類結(jié)果是否合理;K均值聚類對噪聲點(diǎn)和離群值較為敏感,以及要求一定數(shù)據(jù)量,否則聚類結(jié)果就不理想。

29.順序分析:是關(guān)聯(lián)分析的一種,能夠在大量數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)性或相關(guān)性。順序分析關(guān)心數(shù)據(jù)的縱向排列,即一件事情發(fā)生后緊接著會發(fā)生什么事情。順序分析所使用的頻繁模式算法是一種實(shí)用且簡單的算法,比如輸入法利用順序分析挖掘用戶固有的輸入習(xí)慣。

缺點(diǎn):結(jié)果準(zhǔn)確度和計(jì)算效率是順序分析中一個(gè)不可調(diào)和的矛盾;順序分析僅能發(fā)現(xiàn)事件和事件之間的相關(guān)性,而不能發(fā)現(xiàn)一個(gè)事件引發(fā)另外一個(gè)事件的原因;順序分析只有在樣本積累足夠多時(shí)才能起到作用。

30.文本分析:是一系列算法的合稱,需要完成分詞、清洗、信息提取等工作。這些可以通過K均值算法、支持向量機(jī)或樸素貝葉斯算法完成。

31.協(xié)同過濾:是利用集體智慧編程的一種典型算法,但它保留了一定的個(gè)體特征,因此可以用于預(yù)測每個(gè)人的品味偏好。優(yōu)點(diǎn)在于能夠基于抽象概念和信息來過濾某些難以分析的內(nèi)容。為用戶瀏覽到更多感興趣的品牌提供了可能。

32.支持向量機(jī):能夠同時(shí)最小化經(jīng)驗(yàn)誤差并最大化幾何誤差,在保證分類效果的同時(shí),讓兩個(gè)類別的樣本盡可能遠(yuǎn)離。和線性分類器相比,它具有較高的精度和靈敏度,因此常常應(yīng)用于對分類結(jié)果要求較高的地方。在信息生物學(xué)、工業(yè)勘探和文本分析領(lǐng)域都有重要應(yīng)用。

33.感知器神經(jīng)網(wǎng)絡(luò):一種基礎(chǔ)神經(jīng)網(wǎng)絡(luò),使用BP算法優(yōu)化后,感知器神經(jīng)網(wǎng)絡(luò)將具有更好的非線性映射能力、泛化能力和容錯(cuò)能力,這是由于BP算法利用了誤差的反向傳播思想,將誤差平攤給隱含層。

缺點(diǎn):不能準(zhǔn)確預(yù)測較長時(shí)間內(nèi)的函數(shù);神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間較長,當(dāng)數(shù)據(jù)較少且隱含層和神經(jīng)元都較少時(shí),神經(jīng)網(wǎng)絡(luò)能夠在幾分鐘內(nèi)訓(xùn)練好,并且能夠很好解決問題;當(dāng)數(shù)據(jù)很多、隱含層很多、神經(jīng)元很多,即啟動(dòng)典型的深度學(xué)習(xí)模式時(shí),神經(jīng)網(wǎng)絡(luò)就需要訓(xùn)練很長時(shí)間;另外神經(jīng)網(wǎng)絡(luò)的好壞依賴于初始值的設(shè)定,這是因?yàn)檎`差曲面會將神經(jīng)網(wǎng)絡(luò)引入局部最優(yōu)值。

34.自主神經(jīng)網(wǎng)絡(luò):將網(wǎng)絡(luò)切割為一個(gè)一個(gè)小的部分,每部分對應(yīng)一種模式,這種結(jié)構(gòu)使自組織神經(jīng)網(wǎng)絡(luò)在分析比較、尋找規(guī)律和正確歸類等方面具有特殊的優(yōu)勢。其最重要的部分在于設(shè)計(jì)神經(jīng)元個(gè)數(shù)和神經(jīng)元排列方式。
35.RBM算法:全稱是受限玻爾茲曼機(jī)算法,其一個(gè)重要用途就是為神經(jīng)網(wǎng)絡(luò)做預(yù)處理,替神經(jīng)網(wǎng)絡(luò)找出最佳的初始值。RBM算法利用了統(tǒng)計(jì)熱力學(xué)的思想。它將可視層的數(shù)據(jù)轉(zhuǎn)化為隱含層的數(shù)據(jù),通過監(jiān)督學(xué)習(xí)的方法進(jìn)行分類或回歸。由于隱含層的節(jié)點(diǎn)數(shù)一般少于可視層,因此RBM算法就完成了降維工作;通過能量函數(shù)的最優(yōu)化,RBM算法可以求出自變量和因變量之間的權(quán)重矩陣和偏移量,用兩者作為神經(jīng)網(wǎng)絡(luò)的初始值,可以是神經(jīng)網(wǎng)絡(luò)進(jìn)入全局最優(yōu)值點(diǎn),而不會陷入局部最優(yōu)值點(diǎn)處。RBM算法能夠計(jì)算自變量和因變量的聯(lián)合概率,以及兩者構(gòu)成的條件概率。有了這些概率,RBM算法可以像貝葉斯網(wǎng)絡(luò)或者隱馬爾可夫鏈那樣計(jì)算每種狀態(tài)出現(xiàn)的概率,即作為一個(gè)生成模型或分類模型來使用。最大優(yōu)點(diǎn)是能求得全局最優(yōu)值

36.判別分析:是一種典型的以統(tǒng)計(jì)理論為基礎(chǔ)的分類方法,它所使用的降維方法和主成分分析十分類似,但主成分分析的目標(biāo)是將不同維度的信息整合為一個(gè)維度,而判別分析的目標(biāo)是將不同類別的數(shù)據(jù)盡量分離。和回歸分析類似,判別分析有十分嚴(yán)苛的假設(shè)條件。判別分析假設(shè)分組類型在兩種以上,且每個(gè)類別都具有一定的樣本數(shù)量;各組樣本的協(xié)方差矩陣相等,且各組樣本服從正態(tài)分布;判別分析中涉及的各個(gè)變量不能相關(guān)。判別分析擅長處理那些樣本數(shù)據(jù)量介于多和少之間、自變量個(gè)數(shù)較多問題。

圖片

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多