电竞比分网-中国电竞赛事及体育赛事平台

分享

數(shù)據(jù)歸一化和兩種常用的歸一化方法

 成長中輝煌 2014-12-29

數(shù)據(jù)標(biāo)準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進行數(shù)據(jù)標(biāo)準化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準化處理后,各指標(biāo)處于同一數(shù)量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:

 

一、min-max標(biāo)準化(Min-Max Normalization)

 

也稱為離差標(biāo)準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:

 

clip_image002

 

其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當(dāng)有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。

 

二、Z-score標(biāo)準化方法

 

這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準差(standard deviation)進行數(shù)據(jù)的標(biāo)準化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準正態(tài)分布,即均值為0,標(biāo)準差為1,轉(zhuǎn)化函數(shù)為:

 

clip_image004

 

其中clip_image006為所有樣本數(shù)據(jù)的均值,clip_image008為所有樣本數(shù)據(jù)的標(biāo)準差。

 

參考文獻:

 

http:///data-analysis-method/data-normalization/

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多