Lasso思想及算法 - 人過留名的日志 - 網(wǎng)易博客

weicat 2011-05-20

展開全文

Lasso思想及算法

統(tǒng)計(jì) 2010-11-25 21:47:59 閱讀843 評(píng)論2 字號(hào)：大中小訂閱

1、只有這么幾個(gè)人在做LASSO，他們都是大牛，你可以直接GOOGLE他們的主頁，看他們?cè)谶@塊發(fā)了什么文章。

yu bin, zhu ji, zhang tong, hui zou, yuan ming, Nicolai Meinshausen, Peter Bühlmann, Martin J. Wainwright, jianqing fan, Liza Levina, Peter Bickel,Tibshirani（Lasso的提出者）

2、統(tǒng)計(jì)和算法不是一回事的。舉個(gè)例子吧，下面這篇文章就是統(tǒng)計(jì)的人發(fā)的，其中討論到如何在GLM上運(yùn)用SCAD -- LASSO衍生出來的一種懲罰函數(shù)項(xiàng) -- 他們就做的很理論，他們很關(guān)心這個(gè)“算法”的理論性質(zhì)，比如估計(jì)量是否趨近正太，如果是，lambda該以何種rate收斂。他們也討論算法，但是他們對(duì)算法的要求很簡(jiǎn)單，能算出來就行。http://www.stat./~hzou/Papers/onestep.pdf

3、而如下這篇，討論的基本屬于同一個(gè)問題，如果將LASSO運(yùn)用在GLM中的logistic回歸上。但是，他們關(guān)心的是，如何算得又快又好。你看，這個(gè)時(shí)候，統(tǒng)計(jì)學(xué)界所陌生的nestiov都出來了。這個(gè)算法非?？?，1000多個(gè)變量，也就幾十秒的事情。
http://www.public./~jye02/Publications/Papers/fp817-Liu-KDD09.pdf

4、variable selection 是一個(gè)熱點(diǎn)專題啊，特別是在high dimensional data analysis，
有很多新的方法( lasso, group lasso, elastic net, SCAD...)

5、R的包lars 提供了LASSO

6、請(qǐng)教 lasso regression 和bridge logistic regression
你可以去看一下網(wǎng)址“http://www-stat./~tibs/lasso.html”上下載文章“Penalized regressions: the bridge vs the lasso”看一下就知道了，如果想了了解這方面更詳細(xì)的信息，可加qq：381823441，他的碩士論文做的就是這方面的內(nèi)容。

7、LASSO有很多令人期待的問題沒有解決，所以還是有很多坑可以去填的。要想好好學(xué)習(xí)這塊的話，先讀那幾篇state-of-the-art的文章,如下：

最基本那篇
http://www-stat./~tibs/lasso.html

yuan ming 然后提出的 group lasso
http://citeseerx.ist./viewdoc/summary?doi=10.1.1.79.2062

zou hui的elastic net，可以同時(shí)自動(dòng)選取相關(guān)程度比較大的變量（LASSO不能）
http://www-stat./~hastie/TALKS/enet_talk.pdf

zou hui 提出的adative lasso,試圖避免lasso對(duì)參數(shù)的shrunkage
http://www.stat./~hzou/Papers/adaLasso.pdf

jianqing fan 2001 年提出的另外一種 nonconvex的懲罰項(xiàng) -- SCAD
http://www.orfe./~jqfan/papers/01/penlike.pdf

其學(xué)生08年時(shí)接著解決了SCAD的算法問題 -- 實(shí)際上就是一種adaptive lasso
http://www.stat./~hzou/Papers/onestep.pdf

這方面文獻(xiàn)太多了，我給的這幾篇是影響比較大的，你可以看看08年這篇的reference，在里面可以找到一些有意思的線索。另外，LASSO還被廣泛應(yīng)用在graphical model上，有興趣可以看看這篇

http://www.stats./~meinshau/consistent.pdf
http:///abs/0811.4463
http://www-stat./~tibs/ftp/graph.pdf

這三篇是目前文獻(xiàn)里公認(rèn)的里程碑式的文章--關(guān)于gaussian graphical model的。

研究?jī)?nèi)容：< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" />

將Lasso應(yīng)用于回歸，可以在參數(shù)估計(jì)的同時(shí)實(shí)現(xiàn)變量的選擇，較好的解決回歸分析中的多重共線性問題，并且能夠很好的解釋結(jié)果。本項(xiàng)目注重對(duì)實(shí)際案例中的共線性問題利用Lasso的方法剔除變量，改進(jìn)模型，并將其結(jié)果與以往變量選擇的方法比較，提出Lasso方法的優(yōu)勢(shì)。

將Lasso應(yīng)用于時(shí)間序列。將Lasso思想應(yīng)用于AR(p)、ARMA(p)等模型，利用Lasso方法對(duì)AR(p)、ARMA(p)等模型中的變量選擇，并給出具體的算法，隨后進(jìn)行模擬計(jì)算，闡明AR(p) 、ARMA(p)等模型的Lasso方法定階的可行性。

嘗試將Lasso方法應(yīng)用到高維圖形的判別與選擇以及應(yīng)用于線性模型的變量選擇中，以提高模型選擇的準(zhǔn)確性。

研究意義：

隨著科技的進(jìn)步，收集數(shù)據(jù)的技術(shù)也有了很大的發(fā)展。因此如何有效地從數(shù)據(jù)中挖掘出有用的信息也越來越受到人們的關(guān)注。統(tǒng)計(jì)建模無疑是目前處理這一問題的最有效的手段之一。在模型建立之初，為了盡量減小因缺少重要自變量而出現(xiàn)的模型偏差，人們通常會(huì)選擇盡可能多的自變量。但實(shí)際建模過程中通常需要尋找對(duì)響應(yīng)變量最具有解釋性的自變量子集—即模型選擇(或稱變量選擇、特征選擇)，以提高模型的解釋性和預(yù)測(cè)精度。所以模型選擇在統(tǒng)計(jì)建模過程中是極其重要的問題。

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996))方法是一種壓縮估計(jì)。它通過構(gòu)造一個(gè)罰函數(shù)得到一個(gè)較為精煉的模型，使得它壓縮一些系數(shù)，同時(shí)設(shè)定一些系數(shù)為零。因此保留了子集收縮的優(yōu)點(diǎn)，是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。
　　Lasso 的基本思想是在回歸系數(shù)的絕對(duì)值之和小于一個(gè)常數(shù)的約束條件下，使殘差平方和最小化，從而能夠產(chǎn)生某些嚴(yán)格等于0 的回歸系數(shù)，得到可以解釋的模型。R的Lars 算法的軟件包提供了Lasso編程，我們根據(jù)模型改進(jìn)的需要，可以給出Lasso算法，并利用AIC準(zhǔn)則和BIC準(zhǔn)則給統(tǒng)計(jì)模型的變量做一個(gè)截?cái)?，進(jìn)而達(dá)到降維的目的。因此，我們通過研究Lasso可以將其更好的應(yīng)用到變量選擇中去。

研究意義：

一般地說，多元數(shù)據(jù)分析處理的對(duì)象是刻畫所研究問題的多個(gè)統(tǒng)計(jì)指標(biāo)在多次觀察中呈現(xiàn)的數(shù)據(jù)，樣本數(shù)據(jù)具有離散且有限的特征。但是，現(xiàn)代的數(shù)據(jù)收集技術(shù)所收集的信息，不但包括傳統(tǒng)統(tǒng)計(jì)方法所處理的數(shù)據(jù)，還包括具有函數(shù)形式的過程所產(chǎn)生的數(shù)據(jù)。在處理數(shù)據(jù)的時(shí)候我們就會(huì)遇到模型建立的問題，這時(shí)候我們就把一些多元數(shù)據(jù)分析模型應(yīng)用到函數(shù)型數(shù)據(jù)中(比如線性模型)，那么在線性模型中變量的選擇問題就很重要了。

在分析這種模型的時(shí)候，人們根據(jù)問題本身的的專業(yè)理論及有關(guān)經(jīng)驗(yàn)，常常把各種與因變量有關(guān)的自變量引進(jìn)模型，其結(jié)果是把一些對(duì)因變量影響很小的，有些甚至沒有影響的自變量也選入模型中。這樣一來，不但計(jì)算量大，而且估計(jì)和預(yù)測(cè)的精度也會(huì)下降。此外，在一些情況下，某些自變量的觀測(cè)數(shù)據(jù)獲得代價(jià)昂貴，如果這些自變量本身對(duì)因變量的影響很小或根本沒有影響，但我們不加選擇都引到模型中，勢(shì)必造成觀測(cè)數(shù)據(jù)收集和模型應(yīng)用費(fèi)用不必要的加大。

因此，本項(xiàng)目基于數(shù)據(jù)的普遍特征，在對(duì)數(shù)據(jù)分析時(shí)，必須對(duì)進(jìn)入模型的自變量作精心的選擇。而Lasso以縮小變量集（降階）為思想，是一種收縮估計(jì)方法。Lasso方法可以將變量的系數(shù)進(jìn)行壓縮并使某些回歸系數(shù)變?yōu)?/span>0，進(jìn)而達(dá)到變量選擇的目的，可以廣泛的應(yīng)用于模型改進(jìn)與選擇。我們通過選擇懲罰函數(shù)，借用Lasso思想和方法實(shí)現(xiàn)變量選擇的目的。

國內(nèi)外研究現(xiàn)狀分析：

Tibshirani,R.(1996)在Frank(1993)提出的“Bridge Regression”和Bireman(1995)提出的“Nonnegative Garrote”的啟發(fā)下提出了一種稱之為Lasso (Least absolute shrinkage and seleetion operator)的新的變量選擇方法并將其成功應(yīng)用于COX模型的變量選擇。該方法克服了傳統(tǒng)方法在選擇模型上的不足，因此該方法在統(tǒng)計(jì)領(lǐng)域受到了極大的重視。但是該方法缺乏有效的算法支撐。因此很多學(xué)者在這方面展開了研究。

Fu(1998)提出了“Shooting”算法，接著Osbome,M.R.等發(fā)現(xiàn)Lasso回歸的解的路徑是逐片線性的并提出相應(yīng)的同倫算法；Bradley Efron等(2004)提出的最小角回歸(Least Angle Regression)算法很好地解決Lasso的計(jì)算問題；Fan和Li(2001)指出Lasso估計(jì)對(duì)于絕對(duì)值較大的系數(shù)的壓縮過大，可能會(huì)造成不必要的模型偏差，并且推測(cè)Lasso估計(jì)不具有“哲人”性質(zhì)(“oracle properties”)，還給出了一種被簡(jiǎn)稱為SCAD新的懲罰函數(shù)，并沿用GCv方法來選擇懲罰參數(shù)(或者叫“Tunning parameters”)。

Lasso這種方法使一些回歸系數(shù)變小，有些甚至被壓縮為0，但忽略了相鄰兩個(gè)回歸系數(shù)間的差異，使估計(jì)值波動(dòng)性很大。在2005年，Tibshiralli和Sawnders又將此方法改進(jìn)，又加入了約束條件，控制了回歸系數(shù)的波動(dòng)性。

模型選擇本質(zhì)上是尋求模型稀疏表達(dá)的過程，而這種過程可以通過優(yōu)化一個(gè)“損失”十“懲罰”的函數(shù)問題來完成。

主要參考文獻(xiàn)：

[1] Jun Liu. Large-Scale Sparse Logistic Regression[J]．KDD’09．

[2] Hui Zou and Runze Li. One-step sparse estimates in nonconxave penalized[J]．The Annals of Statistics,2008,11．

[3] Tibshirani,R.Regression Shrinkage and Selection Via the Lasso[J]．Journal of the Royal Statical Society.Series B.58,267-288．

[4] Wang Zhanfeng. A LASSO-Type Approach to Variable Selection and Estimation for Censored Regression Model[J]．2010,02．

[5] 邱南南.基于Lasso 改進(jìn)的一般因果關(guān)系檢驗(yàn)[J]．統(tǒng)計(jì)與信息論壇，2008,02．

[6] 趙婷婷.AR(p)模型的Lasso方法定階[D]．東北師范大學(xué)碩士論文，2008,05．

[7] 宋國棟.線性不等式約束下的變量選擇[D]．東北師范大學(xué)碩士論文，2007,05．

[8] 孫麗麗.工具變量回歸模型中的變量選擇[D]．東北師范大學(xué)碩士論文，2008,05．

[9] 劉小明.數(shù)據(jù)降維及分類中的流行學(xué)習(xí)研究[J]．浙江大學(xué)博士學(xué)位論文，2007,4．

[10] 楊威.函數(shù)型回歸模型的成分選取[D]．東北師范大學(xué)碩士論文，2009,05．

技術(shù)路線：

根據(jù)已發(fā)表論文中遇到的違反估計(jì)的情況進(jìn)行總結(jié)研究，提出補(bǔ)救方案，進(jìn)而根據(jù)不同參數(shù)估計(jì)方法的優(yōu)劣，針對(duì)實(shí)際問題給出相應(yīng)的參數(shù)估計(jì)方法或是方法的組合。

實(shí)驗(yàn)方案及可行性分析

第一年主要從事理論研究，通過閱讀相關(guān)的書籍和學(xué)術(shù)論文，對(duì)Lasso的最新成果刻苦鉆研，找出著手點(diǎn)，并嘗試算法的改進(jìn)，對(duì)不同的模型嘗試借用Lasso實(shí)現(xiàn)變量的篩選。

后半年主要從事Lasso在變量選擇中的應(yīng)用。

作者從研一開始就閱讀Lasso的相關(guān)論文，通過閱讀與Lasso相關(guān)的近期論文，有了一定的想法和思考，并嘗試著懲罰項(xiàng)的添加和模擬。

2．本項(xiàng)目的創(chuàng)新之處及預(yù)期成果

創(chuàng)新之處：

試圖將Lasso應(yīng)用于現(xiàn)在未涉及的模型，通過添加懲罰項(xiàng)，利用AIC準(zhǔn)則和BIC準(zhǔn)則給統(tǒng)計(jì)模型的變量做一個(gè)截?cái)?，進(jìn)而達(dá)到降維的目的。并將結(jié)合實(shí)例分析與其他模型中變量選擇的方法進(jìn)行比較，突出Lasso方法在多元統(tǒng)計(jì)分析問題中的優(yōu)點(diǎn)。

預(yù)期成果：

（1）給出Lasso思想應(yīng)用在部分模型的優(yōu)劣，并在借用懲罰函數(shù)達(dá)到剔除部分變量的基礎(chǔ)上，降低研究成本和提高模型成果的解釋力度。并與傳統(tǒng)的變量選擇方法比較，突出Lasso在實(shí)際分析應(yīng)用中的優(yōu)勢(shì)。

（2）針對(duì)實(shí)際問題和數(shù)據(jù)特征，給出相應(yīng)的Lasso模型變量的選擇，并與其他變量方法選擇進(jìn)行比較優(yōu)勢(shì)。

（3）預(yù)期成果：在核心期刊發(fā)表論文1-2篇。

3．與本項(xiàng)目有關(guān)的研究工作積累和已取得的研究成果

工作積累：

（1）通過學(xué)習(xí)多元統(tǒng)計(jì)分析，對(duì)變量的選擇和相關(guān)的理論知識(shí)有了深入的研究。

（2）通過閱讀與Lasso相關(guān)的論文，有了一定的想法和思考,并開始理論改進(jìn)和案例分析。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： weicat > 《research》

舉報(bào)/認(rèn)領(lǐng)