电竞比分网-中国电竞赛事及体育赛事平台

分享

【數(shù)據(jù)分析2】 關(guān)于分類和聚類算法...

 F2967527 2022-05-24 發(fā)布于北京

01   前言 

      在數(shù)據(jù)領(lǐng)域,特別是數(shù)據(jù)挖掘中,對于預(yù)測類分析,線性回歸、分類算法以及聚類算法是最經(jīng)常用的三種算法。它們的區(qū)別是哪呢?

       首先線性回歸針對的目標變量是連續(xù)型或有序值,往往用來對未來的銷量/利潤等等的預(yù)測。而分類和聚類針對的目標變量是離散型或類屬標號,是用來對未知類別的分類,其中,分類是屬于有監(jiān)督學(xué)習(xí),而聚類則是屬于無監(jiān)督學(xué)習(xí)。

02   分類

       分類的模型訓(xùn)練為:訓(xùn)練數(shù)據(jù) → 分類算法 → 分類規(guī)則。其中,分類算法包括有:①決策樹;②貝葉斯;③神經(jīng)網(wǎng)絡(luò)...

        決策樹分析是較為常用的分類算法,最早的是ID3算法,后面逐漸優(yōu)化到C4.5,以及C5.0算法。區(qū)別是在于決策樹的修剪。

        本文介紹的是用決策樹分析算法,通過Excel的建模來簡單介紹這個分類算法。

>>>案例數(shù)據(jù)

下圖為我們的數(shù)據(jù),其中E列【是否打球】則為我們的目標變量。

圖片

>>>操作步驟

1. 計算整個樣本集的信息熵,公式為:

圖片圖片

2. 計算出各類屬性的信息增益,信息增益的公式為 Gain(S/A)=E(S)-E(A)。本例中有4個因子屬性,因此分別求出四個信息增益。

圖片

3.接下來對信息增益進行排序。

圖片

        從結(jié)果可以看出,Gain(天氣) > Gain(濕度) > Gain(是否有風(fēng)) > Gain(溫度),所以選擇天氣作為第一層分支節(jié)點。對于其每一個分支,重復(fù)前面三步,直至決策樹生成完畢。

        以上是ID3的算法,則依次求出所有分支,直到?jīng)Q策樹全部構(gòu)建完全。而如果使用了C5.0算法,則是用信息增益比例來進行排序,對應(yīng)某些比例較低的分支將做減枝,以此提高效率。

        比如下圖則為C5.0算法得出的決策樹。

圖片

03   聚類

       聚類是將一組對象中距離近的或者相似度高的分在一組,實現(xiàn)簇間距離最大化,簇內(nèi)距離最小化。聚類是完全按照數(shù)據(jù)的分布進行類別劃分,沒有任何指導(dǎo)信息,大小和解構(gòu)也都沒有事先設(shè)定。

       聚類類型算法也很多,最典型的是K-Means算法(K均值)。本文也是用最簡單的數(shù)據(jù)來建模,嘗試理解K-Means聚類方法。

>>> 案例數(shù)據(jù)

       這里使用的是簡單的樣本數(shù)據(jù)。本身的數(shù)據(jù)也是有很明顯的聚類效果。

圖片

>>> 操作步驟

1.我們先用A點為聚點,求出歐式距離d。距離公式為:

圖片

2.根據(jù)距離d,求出平均值,然后根據(jù)平均值高低來分簇,如C1,C2

圖片

3. 這個時候,我們引用C1,C2的數(shù)據(jù)插入圖形,便可以得到圖形。

圖片

4.上述是第一次聚類。接下來對C1,C2組內(nèi)的x,y求均值得到聚點C11,C12。同樣求出各點到C11,C12的距離。

5.同理,也根據(jù)距離來排序,分簇。最終用得到分簇的結(jié)果與第一次分簇結(jié)果來校驗是否一致。

圖片

        從上面結(jié)果,我們可以看出兩次分簇的結(jié)果是一致的。

04 最后

       當然,在實際工作生活中,真正面對的數(shù)據(jù)是很復(fù)雜的。一般使用的是統(tǒng)計軟件SAS, SPSS來輔助生成結(jié)果。本文淺嘗即止,所采用的樣本數(shù)據(jù)簡單且明顯,故使用Excel建模即可生成。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多