【數(shù)據(jù)分析2】關(guān)于分類和聚類算法...

F2967527 2022-05-24 發(fā)布于北京

展開全文

01 前言

在數(shù)據(jù)領(lǐng)域，特別是數(shù)據(jù)挖掘中，對于預(yù)測類分析，線性回歸、分類算法以及聚類算法是最經(jīng)常用的三種算法。它們的區(qū)別是哪呢？

首先線性回歸針對的目標變量是連續(xù)型或有序值，往往用來對未來的銷量/利潤等等的預(yù)測。而分類和聚類針對的目標變量是離散型或類屬標號，是用來對未知類別的分類，其中，分類是屬于有監(jiān)督學(xué)習(xí)，而聚類則是屬于無監(jiān)督學(xué)習(xí)。

02 分類

分類的模型訓(xùn)練為：訓(xùn)練數(shù)據(jù) → 分類算法 → 分類規(guī)則。其中，分類算法包括有：①決策樹；②貝葉斯；③神經(jīng)網(wǎng)絡(luò)...

決策樹分析是較為常用的分類算法，最早的是ID3算法，后面逐漸優(yōu)化到C4.5,以及C5.0算法。區(qū)別是在于決策樹的修剪。

本文介紹的是用決策樹分析算法，通過Excel的建模來簡單介紹這個分類算法。

>>>案例數(shù)據(jù)

下圖為我們的數(shù)據(jù)，其中E列【是否打球】則為我們的目標變量。

>>>操作步驟

1. 計算整個樣本集的信息熵，公式為：

2. 計算出各類屬性的信息增益，信息增益的公式為 Gain(S/A)=E(S)-E(A)。本例中有4個因子屬性，因此分別求出四個信息增益。

3.接下來對信息增益進行排序。

從結(jié)果可以看出，Gain(天氣) > Gain(濕度) > Gain(是否有風(fēng)) > Gain(溫度)，所以選擇天氣作為第一層分支節(jié)點。對于其每一個分支，重復(fù)前面三步，直至決策樹生成完畢。

以上是ID3的算法，則依次求出所有分支，直到?jīng)Q策樹全部構(gòu)建完全。而如果使用了C5.0算法，則是用信息增益比例來進行排序，對應(yīng)某些比例較低的分支將做減枝，以此提高效率。

比如下圖則為C5.0算法得出的決策樹。

03 聚類

聚類是將一組對象中距離近的或者相似度高的分在一組，實現(xiàn)簇間距離最大化，簇內(nèi)距離最小化。聚類是完全按照數(shù)據(jù)的分布進行類別劃分，沒有任何指導(dǎo)信息，大小和解構(gòu)也都沒有事先設(shè)定。

聚類類型算法也很多，最典型的是K-Means算法（K均值）。本文也是用最簡單的數(shù)據(jù)來建模，嘗試理解K-Means聚類方法。

>>> 案例數(shù)據(jù)

這里使用的是簡單的樣本數(shù)據(jù)。本身的數(shù)據(jù)也是有很明顯的聚類效果。

>>> 操作步驟

1.我們先用A點為聚點，求出歐式距離d。距離公式為：

2.根據(jù)距離d，求出平均值，然后根據(jù)平均值高低來分簇，如C1,C2

3. 這個時候，我們引用C1,C2的數(shù)據(jù)插入圖形，便可以得到圖形。

4.上述是第一次聚類。接下來對C1,C2組內(nèi)的x，y求均值得到聚點C11,C12。同樣求出各點到C11,C12的距離。

5.同理，也根據(jù)距離來排序，分簇。最終用得到分簇的結(jié)果與第一次分簇結(jié)果來校驗是否一致。

從上面結(jié)果，我們可以看出兩次分簇的結(jié)果是一致的。

04 最后

當然，在實際工作生活中，真正面對的數(shù)據(jù)是很復(fù)雜的。一般使用的是統(tǒng)計軟件SAS, SPSS來輔助生成結(jié)果。本文淺嘗即止，所采用的樣本數(shù)據(jù)簡單且明顯，故使用Excel建模即可生成。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自： F2967527 > 《Excel 機器學(xué)習(xí)算法》

舉報/認領(lǐng)

0條評論

發(fā)表

請遵守用戶評論公約

類似文章 更多

F2967527

關(guān)注對話

TA的最新館藏

腦血栓的病根是什么呢？一個中成藥全面講解
日期區(qū)間展開太煎熬，map sequence函數(shù)來支招
OCR
金額大寫不用愁，公式口訣解你憂
使用Power Automate獲取Dataverse數(shù)據(jù)作為Excel附件發(fā)送郵件
【Power Automate】使用CSV文件向SharePoint中批量導(dǎo)入數(shù)據(jù)

喜歡該文的人也喜歡更多

熱門閱讀換一換

电竞比分网-中国电竞赛事及体育赛事平台

【數(shù)據(jù)分析2】 關(guān)于分類和聚類算法...

【數(shù)據(jù)分析2】關(guān)于分類和聚類算法...