|
數(shù)據(jù)標(biāo)準化(歸一化)處理是數(shù)據(jù)挖掘的一項基礎(chǔ)工作,不同評價指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進行數(shù)據(jù)標(biāo)準化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準化處理后,各指標(biāo)處于同一數(shù)量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法: 一、min-max標(biāo)準化(Min-Max Normalization) 也稱為離差標(biāo)準化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:  其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當(dāng)有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。 二、Z-score標(biāo)準化方法 這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準差(standard deviation)進行數(shù)據(jù)的標(biāo)準化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準正態(tài)分布,即均值為0,標(biāo)準差為1,轉(zhuǎn)化函數(shù)為:  其中 為所有樣本數(shù)據(jù)的均值, 為所有樣本數(shù)據(jù)的標(biāo)準差。 參考文獻: http:///data-analysis-method/data-normalization/
|