作者:Will Badr 導(dǎo)讀鸛會接生孩子嗎?雖然它已經(jīng)在相關(guān)性和因果關(guān)系的背景下得到了理論上的證明,但本文探討了相關(guān)性以及它與因果關(guān)系的不同之處。 器學(xué)習(xí)模型的好壞取決于你所擁有的數(shù)據(jù)。這就是為什么數(shù)據(jù)科學(xué)家可以花費數(shù)小時對數(shù)據(jù)進(jìn)行預(yù)處理和清理。他們只選擇對結(jié)果模型的質(zhì)量貢獻(xiàn)最大的特征。這個過程稱為“特征選擇”。特征選擇是選擇能夠使預(yù)測變量更加準(zhǔn)確的屬性,或者剔除那些不相關(guān)的、會降低模型精度和質(zhì)量的屬性的過程。 數(shù)據(jù)與特征相關(guān)被認(rèn)為是數(shù)據(jù)預(yù)處理中特征選擇階段的一個重要步驟,尤其是當(dāng)特征的數(shù)據(jù)類型是連續(xù)的。那么,什么是數(shù)據(jù)相關(guān)性呢? 數(shù)據(jù)相關(guān)性:是一種理解數(shù)據(jù)集中多個變量和屬性之間關(guān)系的方法。使用相關(guān)性,你可以得到一些見解,如:
那么,相關(guān)性為什么有用?
讓我們更仔細(xì)地看看這意味著什么,以及相關(guān)性是如何有用的。相關(guān)性有三種類型: 正相關(guān):表示如果feature A增加,feature B也增加;如果feature A減少,feature B也減少。這兩個特征是同步的,它們之間存在線性關(guān)系。 負(fù)相關(guān)(左)正相關(guān)(右) 負(fù)相關(guān):表示如果feature A增加,feature B減少,反之亦然。 無相關(guān)性:這兩個屬性之間沒有關(guān)系。 這些相關(guān)類型中的每一種都存在于由0到1的值表示的頻譜中,其中微弱或高度正相關(guān)的特征可以是0.5或0.7。如果存在強而完全的正相關(guān),則用0.9或1的相關(guān)分值表示結(jié)果。 如果存在很強的負(fù)相關(guān)關(guān)系,則表示為-1。 如果你的數(shù)據(jù)集具有完全正或負(fù)的屬性,那么模型的性能很可能會受到一個稱為“多重共線性”的問題的影響。多重共線性發(fā)生在多元回歸模型中的一個預(yù)測變量可以由其他預(yù)測變量線性預(yù)測,且預(yù)測精度較高。這可能導(dǎo)致歪曲或誤導(dǎo)的結(jié)果。幸運的是,決策樹和提升樹算法天生不受多重共線性的影響。當(dāng)它們決定分裂時,樹只會選擇一個完全相關(guān)的特征。然而,其他算法,如邏輯回歸或線性回歸,也不能避免這個問題,你應(yīng)該在訓(xùn)練模型之前修復(fù)它。 我該如何處理這個問題? 有多種方法來處理這個問題。最簡單的方法是刪除完全相關(guān)的特性。另一種方法是使用降維算法,比如PCA。 Spearman VS Pearson相關(guān)矩陣: Spearman和Pearson是計算兩個變量或?qū)傩灾g相關(guān)性強弱的兩種統(tǒng)計方法。Pearson相關(guān)系數(shù)可用于線性關(guān)系的連續(xù)變量。舉個例子: 上面代碼的輸出 要打印Pearson系數(shù)評分,只需運行 pearsonr(X,Y),結(jié)果為: (0.88763627518577326,5.1347242986713319e-05),其中第一個值為Pearson相關(guān)系數(shù),第二個值為p值。0.8表示變量呈高度正相關(guān)。 如果變量之間存在非線性關(guān)系,則可以使用Spearman 相關(guān)系數(shù)來度量相關(guān)性。也可以與ordinal categorical variables一起使用。可以通過運行 scipy.stats.spearmanr(X,Y)來獲得Spearman系數(shù)得分。 這聽起來可能很復(fù)雜特別是對于高維數(shù)據(jù)集。在這種情況下,最好在矩陣中可視化相關(guān)關(guān)系。下面是如何使用panda實現(xiàn)這一點,我使用的是Porto Seguro的Kaggle安全駕駛預(yù)測數(shù)據(jù)集: 從上面的矩陣中可以看出,psreg03和psreg02變量之間以及pscar12和pscar13之間具有很高的相關(guān)性。 還有一種很流行的方法叫做Kendall’s Tau系數(shù),它也是基于可變等級的,但與Spearman系數(shù)不同,它沒有考慮等級之間的差異。由于本文的重點是Pearson和Spearman的相關(guān)性,所以Kendall方法不在本文的研究范圍之內(nèi)。 誤解(鸛會接生孩子嗎?): 相關(guān)性經(jīng)常被解釋為因果關(guān)系,這是一個很大的誤解。變量之間的相關(guān)性并不表示因果關(guān)系。任何高度相關(guān)的變量都應(yīng)該仔細(xì)檢查和考慮。這是一篇(幽默的)德語文章,它使用相關(guān)性來證明嬰兒是由鸛來接生的理論。研究表明,城市周邊鸛類數(shù)量的增加與城市醫(yī)院外接生數(shù)量的增加之間存在顯著的相關(guān)性。 左邊的圖表顯示鸛的數(shù)量增加(粗體黑線),醫(yī)院分娩的數(shù)量減少。另一方面,右邊的圖表顯示,醫(yī)院外分娩的數(shù)量(白色方塊標(biāo)記)遵循鸛數(shù)量增加的模式。雖然這項研究并不是為了科學(xué)地證明(嬰兒鸛理論),但它表明,通過高相關(guān)性,一種關(guān)系可能看起來是因果關(guān)系。這可能是由于一些未觀察到的變量。例如,人口增長可以是另一個因果變量。 總之:相關(guān)性在許多應(yīng)用中都非常有用,尤其是在進(jìn)行回歸分析時。然而,它不應(yīng)與因果關(guān)系混在一起,并以任何方式被誤解。你還是應(yīng)該始終檢查數(shù)據(jù)集中不同變量之間的相關(guān)性,并在探索和分析過程中收集一些見解 英文原文:https:///why-feature-correlation-matters-a-lot-847e8ba439c4 |
|
|