|
又要學(xué)習(xí)新知識(shí)啦 寫在前面 在構(gòu)建模型之前,我們常常希望了解哪些特征對(duì)目標(biāo)變量有影響?特征選擇是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),能夠優(yōu)化模型性能,提高預(yù)測準(zhǔn)確性,并且也能幫助我們從海量特征中篩選出對(duì)目標(biāo)變量最具影響力的特征,剔除冗余信息,使模型更加簡潔高效。 相關(guān)性是數(shù)據(jù)科學(xué)的基石!找出特征與目標(biāo)變量之間的關(guān)聯(lián)有助于我們建立更精確的預(yù)測模型。相關(guān)性分析讓我們了解特征之間的相互關(guān)系,為特征選擇提供指導(dǎo)。今天小編就給大家科普一下常見的相關(guān)性度量和特征選擇方法。 01. 相關(guān)性分析 相關(guān)性是統(tǒng)計(jì)學(xué)中的一個(gè)概念,是指兩個(gè)變量的關(guān)聯(lián)程度。在數(shù)據(jù)分析中,相關(guān)性度量是探索變量之間關(guān)系的關(guān)鍵方法之一。通過了解變量之間的相關(guān)性,我們可以揭示隱藏的模式和趨勢。 ![]() 相關(guān)性度量——線性方法 [1] 皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient):經(jīng)典的線性相關(guān)性度量方法,衡量線性關(guān)系的強(qiáng)度和方向。值域?yàn)閇-1, 1],1表示完全正相關(guān),-1表示完全負(fù)相關(guān)。該方法一般適用于符合正態(tài)分布的連續(xù)性數(shù)據(jù),對(duì)于離群值是較為敏感的。 [2] 判定系數(shù)(Coefficient of determination):也叫可決系數(shù),是指在線性回歸中,回歸平方和與總離差平方和之比值,表示一個(gè)變量的方差能被另一個(gè)變量解釋的比例。判定系數(shù)越接近1,線性關(guān)系越強(qiáng)。 [3] 切比雪夫相關(guān)系數(shù)(Chebyshev correlation coefficient):切比雪夫相關(guān)系數(shù)用于衡量兩個(gè)連續(xù)型變量之間的線性關(guān)系。它是兩個(gè)變量之間的最大差異絕對(duì)值除以數(shù)據(jù)范圍的最大值。 [4] 列聯(lián)表卡方檢驗(yàn):是一種用于衡量兩個(gè)離散變量之間相關(guān)性的方法。該方法的基本思想是將觀察到的頻數(shù)與期望的頻數(shù)進(jìn)行比較,從而判斷兩個(gè)變量之間是否存在非隨機(jī)的關(guān)聯(lián)。適用于檢測線性相關(guān)性,對(duì)于非線性關(guān)系不夠敏感。 相關(guān)性度量——非線性方法 [1] 斯皮爾曼相關(guān)系數(shù)(Spearman correlation coefficient):該方法是通過對(duì)數(shù)據(jù)進(jìn)行排名轉(zhuǎn)換,衡量兩個(gè)變量之間的單調(diào)關(guān)系,對(duì)于數(shù)據(jù)中的離群值是較為穩(wěn)健的。 [2] 肯德爾相關(guān)系數(shù)(Kendall correlation coefficient):與Spearman 相關(guān)系數(shù)類似,也是一種基于數(shù)據(jù)秩的度量方法,當(dāng)數(shù)據(jù)量很大時(shí),該方法會(huì)比Spearman更高效。 [3] 互信息(Mutual Information):互信息是信息論中的概念,它用于衡量兩個(gè)變量之間的非線性關(guān)系,以及它們共享的信息量。一般適用于衡量離散隨機(jī)變量之間的相關(guān)性[1]。 [4] Copula熵(Copula entropy):新興的非線性相關(guān)性度量方法,Copula熵是統(tǒng)計(jì)學(xué)中與Copula函數(shù)相關(guān)的一個(gè)信息熵度量,特別適用于復(fù)雜關(guān)系,能捕捉非線性關(guān)系,通過衡量Copula模型中的信息共享來評(píng)估變量之間的依賴程度[2]。 02. 特征選擇 特征選擇的一個(gè)重要目標(biāo)就是通過評(píng)估特征與目標(biāo)變量之間的相關(guān)性,來選擇對(duì)目標(biāo)變量預(yù)測有意義的、最具信息量的特征。 特征選擇有好處 [1] 提升模型性能:選取精華特征,降低過擬合風(fēng)險(xiǎn),讓模型更具泛化能力。 [2] 加快訓(xùn)練速度,減少不必要特征,讓模型訓(xùn)練更快捷高效。 [3] 剔除無關(guān)特征,能夠更好地理解模型的預(yù)測依據(jù)。 特征選擇的方法有多樣 [1]過濾式方法:基于統(tǒng)計(jì)學(xué)或相關(guān)度評(píng)估特征重要性,如方差選擇、相關(guān)系數(shù)等(上述介紹的相關(guān)性方法)。 [2] 包裹式方法:使用模型性能評(píng)估指標(biāo)來篩選特征,例如遞歸特征消除。 [3] 嵌入式方法:在模型訓(xùn)練過程中自動(dòng)選擇特征,如LASSO和決策樹的特征重要性。 當(dāng)然,不僅限于上述的特征選擇方法,還有粗糙集[3]、彈性網(wǎng)[4]等。 特征選擇注意事項(xiàng) [1] 充分了解數(shù)據(jù):深入了解數(shù)據(jù)背后含義,有助于選擇正確特征。 [2] 交叉驗(yàn)證:使用交叉驗(yàn)證確保特征選擇不會(huì)過擬合于單個(gè)訓(xùn)練集。 [3] 定期更新:數(shù)據(jù)變化,特征選擇也需跟進(jìn)更新,保持模型優(yōu)秀性能! 小結(jié) 以上為相關(guān)性分析和特征選擇的簡單介紹,二者是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的重要技術(shù),它們的應(yīng)用能夠帶來更加優(yōu)秀的模型和深入洞察數(shù)據(jù)的能力。將它們?nèi)谌霐?shù)據(jù)科學(xué)的實(shí)踐中,將有助于我們更好地理解數(shù)據(jù),做出更明智的決策,并創(chuàng)造更大的價(jià)值。 參考文獻(xiàn): [1]夏利宇, 姜天英, 劉賽可. 信用評(píng)級(jí)模型的特征選擇方法研究[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2020, 50(13):61-67. [2]馬健. 基于Copula熵的變量選擇[J]. 應(yīng)用概率統(tǒng)計(jì), 2021, 37(4): 405-420. [3]Moghadam M.R.S., Govindan K., Dahooie J.H., Mahvelati S., Meidute-Kavaliauskiene I.. Designing a model to estimate the level of university social responsibility based on rough sets[J]. Journal of Cleaner Production, 2021, 324(12):129-178. [4]Zou H., Hastie T.. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society Series B: Statistical Methodology, 2005, 67(2): 301–320. ![]() 了解更多概率論與數(shù)理統(tǒng)計(jì)的相關(guān)知識(shí), 和我們一起加入網(wǎng)課學(xué)習(xí)吧! 快來學(xué)習(xí)新知識(shí) 關(guān)注我們 大數(shù)學(xué)極客 一周一個(gè)概率知識(shí),讓數(shù)學(xué)更有趣 |
|
|