機器學習方法逐漸在經(jīng)濟管理等社科類頂刊,如AER,JPE,QJE,JOF等期刊上出現(xiàn)了。為了進一步了解機器學習在國外最新應用動向,我們?yōu)楦魑粚W者奉上“農(nóng)業(yè)和應用經(jīng)濟學中的機器學習”。對機器學習方法感興趣的學者,建議認真研讀這篇非常重要、全面的文章。關于下方文字內(nèi)容,作者:王樂,東北財經(jīng)大學金融學院,通信郵箱:wl614335@163.com《農(nóng)業(yè)和應用經(jīng)濟學中的機器學習》Machine learning in agricultural and applied economics, European Review of Agricultural Economics 這篇文章從應用經(jīng)濟學的角度介紹了機器學習方法。作者首先介紹了與經(jīng)濟學實踐相關的主要計量經(jīng)濟學方法。然后,確定了當前計量經(jīng)濟學和模擬模型工具箱在應用經(jīng)濟學方面的局限性,并探索了機器學習法提供的潛在解決方案。在預測和因果分析中,深入研究了不靈活的函數(shù)形式、非結構化數(shù)據(jù)源和大量解釋性變量等情況,并強調(diào)了復雜模擬模型的挑戰(zhàn)。最后,作者認為,當用于定量經(jīng)濟分析時,經(jīng)濟學家在解決機器學習法的缺點方面有著至關重要的作用。(一)什么是ML?機器學習(ML)、人工智能(AI)和深度學習(DL)經(jīng)?;Q使用。ML是AI的一部分,而AI又是計算機科學的一門學科。DL是機器學習ML的一個特定子集,它使用分層方法,每一步都將前一步的信息轉(zhuǎn)換成更復雜的數(shù)據(jù)表示。(二)為什么要把機器學習引入農(nóng)業(yè)和應用經(jīng)濟學?1.在許多不同領域,包括農(nóng)業(yè)、環(huán)境和發(fā)展領域,數(shù)據(jù)的可獲得性都有了顯著提高。除了幫助處理來自這些新來源的數(shù)據(jù),ML方法比傳統(tǒng)的統(tǒng)計方法更能有效地利用大量數(shù)據(jù)。2.自21世紀初以來,多處理器圖形卡(Multi-Processor Graphic Cards) ,或稱圖形處理單元(Graphic Processing Unit,GPU)的使用極大地加速了計算機學習,許多機器學習方法可以并行化并利用圖形處理器的潛力。3.機器學習研究團體正在迅速開發(fā)用戶應用這些方法所需的工具。研究人員已經(jīng)開發(fā)并改進了能夠突破ML/DL邊界的算法。這個團體有著強大的開源傳統(tǒng),包括強大的DL庫 (如tensorflow.org、pytorch.org)和預處理模型(如VVGNet、ResNet),增加了采用的可能性。4.最后,經(jīng)濟學家已經(jīng)開始意識到,機器學習的預測能力不僅可以如此使用,而且還可以改善因果識別(Athey,2019)。(三)機器學習如何有助于農(nóng)業(yè)和應用經(jīng)濟學?傳統(tǒng)經(jīng)濟學模型通常包含很少的關于函數(shù)形式的先驗信息,在不同的觀察單元之間有很大的潛在異質(zhì)性,并且經(jīng)常有多個輸出。例如,一個人想要估計化肥對農(nóng)作物產(chǎn)量的影響。產(chǎn)量由土壤質(zhì)量、天氣、投放、投放時機和其他管理選擇的復雜組合決定,充滿非線性和相互作用。雖然傳統(tǒng)方法允許我們處理這些問題,但是機器學習方法增加了數(shù)據(jù)和函數(shù)形式的靈活性,以及處理效率,開辟了其他分析途徑。(四)本文創(chuàng)新處1.已有文獻還沒有關于機器學習在農(nóng)業(yè)和應用經(jīng)濟學分析中的現(xiàn)有和潛在應用的概述。而機器學習方法對上述領域有著特別的前景,因為它們與復雜的生物或物理過程有著頻繁的聯(lián)系,使用了非傳統(tǒng)的數(shù)據(jù)源,并且經(jīng)常使用模擬方法。2.本文從標準的計量經(jīng)濟學和模擬工具的角度來幫助對于機器學習的理解和應用。本文強調(diào)了ML工具如何填補我們現(xiàn)有方法工具箱中的空白,重點是它們能解決哪些長期存在的挑戰(zhàn)。作者特別強調(diào)神經(jīng)網(wǎng)絡NN,因為盡管神經(jīng)網(wǎng)絡在捕捉復雜的空間和時間關系方面具有巨大的潛力,但它們在經(jīng)濟分析中仍未得到廣泛應用。3.回顧了機器學習在政策模擬中的應用,它還沒有被廣泛覆蓋。二、應用計量經(jīng)濟學視角下的機器學習(一)與計量經(jīng)濟學的區(qū)別(1)計量經(jīng)濟學:目的是獲得邊際效應的可靠估計,如獲得系數(shù)的無偏/一致估計。(2)機器學習:目的是獲得準確的預測,當涉及偏差、方差或均方誤差(MSE)時,它們是根據(jù)預測來定義的。就預測而言一個在預測方面是無偏的模型不一定在系數(shù)方面是無偏的。(1)計量經(jīng)濟學:能夠得出估計系數(shù)的不確定性估計量,因此可以將估計量用于假設檢驗。(2)機器學習:通常不能獲得不確定性估計量,這是該方法的一個實質(zhì)性限制,也是一個活躍的研究領域。(二)機器學習方法1.訓練集-驗證集-測試集(Training Set-Validation Set-Test Set)方法—避免過度擬合在傳統(tǒng)的計量經(jīng)濟學中,我們關心的是“足夠”的自由度,更多的自由度可以減少任何單一估計系數(shù)的標準誤差。這種方法限制了協(xié)變量的數(shù)量(給定一個有限的“N”),從而限制了模型的靈活性。而機器學習通常包含大量參數(shù)和潛在的負自由度,因此避免了過度擬合。機器學習方法將可用的數(shù)據(jù)集分成訓練集(Training Set)、驗證集(Validation Set)和測試集(Test Set):訓練集用于估計模型;驗證集(也稱為開發(fā)或保持集, Development or Hold-Out Set)用于監(jiān)控樣本外預測誤差,然后選擇驗證集中樣本外預測誤差最小的模型;測試集最終用于評估所選模型的樣本外預測誤差,既不能用于訓練也不能用于模型選擇。當數(shù)據(jù)集較大時,訓練/驗證/測試方法可以很容易地應用。而當數(shù)據(jù)集較小時,訓練/驗證/測試分割方法的一個常見變化是k-fold交叉驗證。即將樣本分成k個部分,每個部分有相同數(shù)量的觀察值。然后估計我們選擇的模型k倍;每次使用除了遺漏的k部分外的所有數(shù)據(jù)。這個遺漏部分然后被用于得出樣本外預測誤差。通過對k個估計量的樣本外預測誤差進行平均,我們獲得了樣本外預測誤差期望值的估計。(1)特征縮減方法(Shrinkage Methods)諸如嶺回歸或lasso之類的特征縮減方法是把線性回歸模型根據(jù)系數(shù)的大小上增加一個懲罰項,將系數(shù)推向零。它們可用于預測連續(xù)結果或分類,并可有效地用于具有大量解釋變量的數(shù)據(jù)集。對于偏離零的系數(shù),變量必須對預測能力有很大貢獻。縮減或正則化的程度可以調(diào)整,其中最佳水平通常使用交叉驗證來確定。(2)樹狀模型方法(Tree-Based Methods)決策樹可以用于分類和回歸,這種方法使用線性分割來劃分特征空間(即解釋變量所跨越的空間),以最大化每個分割所創(chuàng)建的分割內(nèi)的同質(zhì)性,順序分割的結尾稱為“葉”。一旦樹“生長”,人們可以用它來預測一個結果,基于觀察的協(xié)變量落在每個連續(xù)分裂的哪一側,即它填充哪片“葉子”。樹的深度描述了分割或節(jié)點的數(shù)量。每個分割都是根據(jù)其對損失函數(shù)的貢獻順序選擇的。優(yōu)點:容易解釋,并且非常適合捕捉高度非線性的關系。缺點:可能不穩(wěn)定并且容易過度擬合,數(shù)據(jù)的微小變化會導致分裂的實質(zhì)性變化。在捕捉真正的線性或光滑函數(shù)方面受到限制,因為根據(jù)構造,得到的模型是階躍函數(shù)(Step Function)。然而,有了足夠的數(shù)據(jù),他們可以任意很好地逼近任何線性或光滑函數(shù)。A.隨機森林:對許多生長在隨機觀測子樣本和變量子集上的深樹的結果進行平均。隨機森林可以被認為與具有自適應加權的kNN方法相關,其中樣本外觀測的預測結果由其特征的加權定義的鄰域給出。B.梯度增強樹(Gradient boosted trees)是由通過在殘差上重復擬合淺樹而訓練的樹的總和組成的加性模型。給定它們的加法結構,與傳統(tǒng)計量經(jīng)濟學中的廣義相加模型(Generalised Additive Models,GAMs)密切相關。然而,當使用大量的解釋變量時,GAMs的估計不如梯度提升有效。這些方法可以檢測高度非線性關系、處理定量和分類數(shù)據(jù)、處理高度非正常數(shù)據(jù)或異常值、提供缺失數(shù)據(jù)、提供不相關變量的算法處理,因此需要相對較少的輸入數(shù)據(jù)預處理和相對較少的訓練期間調(diào)整的優(yōu)勢。此外,它們還提供了每個解釋變量重要性的排名。(3)神經(jīng)網(wǎng)絡(Neural Networks)①卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks ,CNN)適合處理類似網(wǎng)格的數(shù)據(jù),如1D時間序列數(shù)據(jù)或2D圖像數(shù)據(jù)。CNN至少在一層中使用卷積算子,這就是所謂的卷積層。在完全連接(密集)的神經(jīng)網(wǎng)絡中,隱藏層或輸出層中的每個單元通過矩陣乘法w h()?)k k連接到前一層中的每個單元(神經(jīng)元)。相比之下,在卷積層中,每個單元僅查看前一層中的一小部分單元(因此是稀疏互連),并在不同位置使用相同的參數(shù)(參數(shù)共享),從而顯著減少了需要估計的參數(shù)數(shù)量。與經(jīng)典時間序列模型的區(qū)別:CNN學習濾波器的參數(shù),提取有用的特征。例如,在圖像處理應用中,濾波器可以學習檢測圖像的小位置中的垂直邊緣,而另一個濾波器檢測水平邊緣、角和曲線。然后在圖像上移動每個過濾器,創(chuàng)建一個特征圖(每個過濾器一個),指定特征在圖像中的位置。下一個卷積層然后組合特征(邊緣、角等)。)轉(zhuǎn)化為更復雜的結構(例如眼睛、嘴巴或鼻子),繪制這些特征的地圖。②遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Net-Works ,RNN)在處理順序數(shù)據(jù)、處理動態(tài)關系和長期依賴關系方面,RNN是CNN的替代。RNN,特別是使用長短期記憶(Long Short Term Memory ,LSTM)細胞的RNN,越來越受歡迎。RNN-LSTM模型的關鍵特征是,過去的信息是通過細胞狀態(tài)向量跨時間傳遞的。在每個時間步驟中,新引入的解釋變量被編碼并與單元狀態(tài)向量中的過去信息相結合,模型本身學習信息編碼的方式和哪些編碼的信息可以被遺忘(即對于后續(xù)步驟的預測并不重要)。與傳統(tǒng)的自回歸區(qū)別:不需要指定滯后結構,并且可以捕捉更復雜的關系。CNN和RNN都利用了參數(shù)共享的思想,這使得它們能夠檢測特定的模式,而不管模式在序列或圖像中的位置。兩者都可以應用于非常長的時間序列或具有許多短時間序列的面板數(shù)據(jù)。3.無監(jiān)督方法(Unsupervised Approaches)——基于觀測特征的數(shù)據(jù)分組或聚類無監(jiān)督方法旨在發(fā)現(xiàn)(x)的聯(lián)合概率,而不是E(y|x),可以應用于只有解釋性變量(特征)而沒有因變量(結果或標簽)的情況,通常用于降低數(shù)據(jù)的維數(shù)。①線性劃分——主成分分析(Principal Component Analysis,PCA)l 應用于對數(shù)據(jù)的邏輯分組,類似于聚類分析,例如定義新聞文章的“主題”。l 應用于預訓練神經(jīng)網(wǎng)絡(Pre-Train Neural Networks)。在這些設置中,主要目標是學習未標記數(shù)據(jù)中的相關關系,然后可以在第二步中用于監(jiān)督學習任務。②非線性劃分——自動編碼器(Autoencoders)(PCA的非線性推廣)(三)模型復雜性與可解釋性反對使用機器學習工具的一個常見理由是,它們是“黑箱”,在這里,模型學習到的關系不容易解釋。盡管許多機器學習方法比線性回歸方法更復雜,但這不是機器學習工具的固有問題,而是反映了任何方法面臨的靈活性和可解釋性之間不可避免的權衡。一旦我們的目標是反映非線性、交互作用或異質(zhì)性,模型解釋就變得更加困難??赏ㄟ^一下幾種方法解釋:部分依賴圖(Partial Dependence Plots)和累積局部效應圖(Accumulated Local Effects Plots)都將一個或兩個變量的結果與其預測結果進行比較,而個體條件期望圖(Individual Conditional Expectation Plots)生成它們用于個人觀察。預測變量的相對重要性可以通過對不同預測變量的重要性進行排序來評估機器學習法中的一個常見方法是確定導致某個模型預測變化的解釋變量的最小變化。其他的方法發(fā)展出所謂的“對抗樣本(Adversarial Examples)”,識別一個觀察的特征需要產(chǎn)生一個錯誤的預測。3.原型和批評(Prototypes Versus Criticisms)通過集群算法識別一些有代表性的數(shù)據(jù)點—原型(Prototypes)和一些偶然事件—批評(Criticisms)來探索模型捕獲的異類影響,然后將模型對這些原型和批評的預測與它們的實際結果進行比較。三、機器學習法能給農(nóng)業(yè)經(jīng)濟學帶來什么(一)豐富函數(shù)形式(1)農(nóng)業(yè)和環(huán)境經(jīng)濟學中的許多現(xiàn)象本質(zhì)上是非線性的,是潛在的生物、物理、社會或經(jīng)濟過程的結果。例如,氣候變量對產(chǎn)量的影響、地下水開采對抽水成本的影響或污染對健康的影響都可能包含非線性。(2)對于時間,空間或社會網(wǎng)絡,我們目前的方法也通常強加一些限制性的結構,如空間計量經(jīng)濟學中預先確定的鄰域和相互作用的結構。(3)通常,我們對異質(zhì)性的特定方面感興趣。而在大多數(shù)當前的方法中,應用經(jīng)濟學家估計平均效應,或者允許效應在不同的維度上或者在預先定義的有限數(shù)量的組之間有所不同,或者事后選擇組,誘惑著去挑選那些符合研究者的先驗或者那些產(chǎn)生顯著結果的組。(4)經(jīng)濟理論很少對人們試圖估計的對象的具體形式給出明確的指導。它只提供有關形狀限制的信息,如曲率或單調(diào)性。選擇一個不能捕捉非線性、相互作用或異質(zhì)和分布效應的模型可能會導致錯誤的描述偏差。這種偏差隨著基礎過程的非線性程度的增加而增加。當前的計量經(jīng)濟學工具箱已經(jīng)提供了靈活的模型,但在許多情況下,計算需求限制了它們對大數(shù)據(jù)集(大“N”)或高維數(shù)據(jù)(大“K”)的適用性。(1)隨機系數(shù)模型(Random Coefficient Models),分位數(shù)回歸模型(Quantile Regression Models)或混合模型(Mixture Models),允許一定的靈活性,但仍然對估計的關系強加限制性的線性假設,這種靈活性只是局部的,不是在解釋變量的范圍內(nèi)靈活,因而限制了對經(jīng)濟環(huán)境變化的異質(zhì)反應的能力。(2)樣條模型(Spline Models)、核模型(Kernel Models)和局部加權回歸模型(Locally Weighted Regression Models)和GAM模型增加了更大的靈活性,但它們的應用通常僅限于有限數(shù)量的解釋變量。(3)數(shù)值貝葉斯推理方法(Numerical Bayesian Inference),如Gibbs 或 Metropolis Hasting這樣的多中心抽樣方法在處理大樣本的能力方面是有限的(1)集成樹(Ensembles Of Trees)特別是梯度推進方法(Gradient Boosting Approaches)梯度增強正在成為許多環(huán)境中最有效的預測工具;例如,信用評分和企業(yè)破產(chǎn)預測。雖然增強主要用于基于樹的方法,但并不限于此。Fenske、Kneib和Hothorn (2011年)開發(fā)了一種貝葉斯地理加性分位數(shù)回歸方法(Bayesian Geoadditive Quantile Regression),該方法通過梯度增強進行估計。 在農(nóng)業(yè)經(jīng)濟學中,Mrz等人(2016年)將這一方法應用于農(nóng)田租賃費率。除了非常靈活之外,該方法還使用了自動數(shù)據(jù)驅(qū)動的參數(shù)選擇,允許不同分位數(shù)上有不同參數(shù)。他們的結果揭示了協(xié)變量和租金之間存在著重要的非線性、異質(zhì)性關系。 Ifft、Kuhns和Patrick (2018)發(fā)現(xiàn),這些方法在預測農(nóng)民信貸需求方面優(yōu)于其他機器學習法和傳統(tǒng)計量經(jīng)濟學方法。 神經(jīng)網(wǎng)絡還能夠捕捉高度非線性的關系。神經(jīng)網(wǎng)絡和基于樹的方法之間的一個重要區(qū)別是,使用神經(jīng)網(wǎng)絡是復雜的,并且通常需要用戶指定更多的屬性,例如層數(shù)和神經(jīng)元,以及在訓練期間進行更多的調(diào)整。Cao,Ewing和Thompson (2012)發(fā)現(xiàn)單變量在風速預測方面優(yōu)于單變量自回歸綜合移動平均(Autoregressive Integrated Moving Average,ARIMA)模型。 Karlaftis和Vlahogianni (2011)比較了神經(jīng)網(wǎng)絡和ARIMA模型在交通領域的性能的研究并報告了神經(jīng)網(wǎng)絡的優(yōu)越性能的證據(jù)。 與樹狀模型方法相比:神經(jīng)網(wǎng)絡提供了更自然的方法來處理超越諸如時間序列、面板或空間數(shù)據(jù)的橫截面數(shù)據(jù)的非線性關系。缺點:Marchi等人(2004年)質(zhì)疑神經(jīng)網(wǎng)絡相對于logistic回歸模型的優(yōu)越性,認為模型應該盡可能的簡約,并擔心神經(jīng)網(wǎng)絡的過度擬合和可解釋性。優(yōu)點:Beck,King和Zeng (2004)認為使用測試集控制過度擬合優(yōu)于logit模型。最重要的是,logit模型可能需要做出不切實際的假設。例如,在他們的假設中,所有國家發(fā)生沖突的可能性是相同的,而我們預期影響是不同的,(3)變分推理(Variational Inference)變分推理通過允許更多的參數(shù)來增加模型的靈活性。它還可以有效地處理較大的數(shù)據(jù)集。變分推理的基本思想是用更容易計算的分布來近似復雜的分布。它提供了一種替代MCMC抽樣方法的方法,用準確性來換取計算效率。(二)處理非結構化數(shù)據(jù)經(jīng)濟學家一般使用高度結構化的數(shù)據(jù)(如橫截面、時間序列或面板)。而目前非結構化數(shù)據(jù)(如圖像、文本或語音等)變得越來越可獲得,傳統(tǒng)計量經(jīng)濟學工具包對后者的用處有限。傳統(tǒng)方法依賴于基于領域知識的手工特性聚合數(shù)據(jù)。例如,遙感數(shù)據(jù)被用來得出植被指數(shù)(NDVI),或諸如夜間光照強度的單一測量。手機記錄被轉(zhuǎn)換成特定的指數(shù)。同樣,當處理文本數(shù)據(jù)時,索引通常是基于某些術語或短語的出現(xiàn)次數(shù)來導出的。(1)端到端學習(End-To-End Learning)。如果我們有大量的標記數(shù)據(jù),我們可以使用“End-To-End Learning”,不依賴手工的特征或變量,而是讓機器學習算法(通常是DNN算法)學會直接從原始數(shù)據(jù)中提取有用的特征。這種方法避免了傳統(tǒng)方法中選擇或聚集所隱含的信息丟失。Ru?wurm and K?rner (2017)使用遙感數(shù)據(jù)(Sentinel 2 A圖像)作為輸入,并使用德國Bavaria 137,000多個標記田地的數(shù)據(jù)集來確定19個田地類別。 You等人(2017年)使用多光譜遙感數(shù)據(jù)預測美國縣級大豆產(chǎn)量。通過對數(shù)據(jù)生成過程做弱假設,他們能夠減少輸入數(shù)據(jù)的維數(shù)。 無監(jiān)督的DNNs預訓練用大量未標記數(shù)據(jù)和有限標記數(shù)據(jù),其思想是以無監(jiān)督的方式依次訓練神經(jīng)網(wǎng)絡的每一層。每一層都像一個自動編碼器,它的目標是將輸入映射到自身,同時采用某種形式的規(guī)范化。因此,該模型也稱為堆疊式自動編碼器。一旦第一層被訓練(即第一自動編碼器),學習的編碼被給予第二層(第二自動編碼器),然后第二層被訓練并且其編碼被給予下一層。這個過程持續(xù)到第二個最后一層,其輸出可以被認為是輸入數(shù)據(jù)的表示。最后一層然后使用標記數(shù)據(jù)進行訓練,以將該學習的表示與目標變量相匹配,通常只涉及少量參數(shù)。訓練可以在此停止,也可以使用標記的數(shù)據(jù)在最后的監(jiān)督訓練步驟中細化所有層的模型參數(shù)。與PCA相比:無監(jiān)督的預訓練靈活性較高。(3)遷移學習(Transfer Learning)在一個環(huán)境中訓練的模型和參數(shù)可以在另一個環(huán)境中使用。典型的應用是圖像分類或目標識別。如VGG或ResNet這樣的大型模型是在大量標記圖像數(shù)據(jù)集(如ImageNet)上進行訓練的。這些模型及其訓練的參數(shù)可以被轉(zhuǎn)移到其他圖像識別任務中,在這些任務中,只有最后一層被訓練,或者預處理的參數(shù)被用作起始值。在直覺層面上,即使一個模型最終被訓練來區(qū)分狗和貓,模型的早期層次學習是通過如何識別圖像中的一般結構,如邊緣、線條或圓,這些對其他應用也是有用的。(4)'Brute Force' Feature Engineering'Brute Force' Feature Engineering使用確定性有限自動機(Deterministic Finite Automaton)自動生成大量特征,目的是盡可能多地捕捉原始數(shù)據(jù)的變化。然后在特征縮減回歸中使用創(chuàng)建的特征來選擇最有希望的特征,雖然定義特征需要更多的“手工制作”,而不是端到端的學習、轉(zhuǎn)移學習或無監(jiān)督的預培訓,但在網(wǎng)絡數(shù)據(jù)、軌跡、電話記錄或家庭層面的跨國家掃描儀數(shù)據(jù)等輸入數(shù)據(jù)特別復雜的情況下,這種方法很有潛力。(三)文本分析在許多領域,經(jīng)濟學家可以訪問大量的數(shù)據(jù)集,包括觀察數(shù)據(jù)的數(shù)量(N)和解釋變量的數(shù)量(K)。例如土壤或天氣數(shù)據(jù),可以包括許多在高粒度空間和時間分辨率下觀察到的特征(風、溫度、降水量、蒸發(fā)等),這些特征通常隨時間和/或空間的變化而不一致。通常,經(jīng)濟理論和領域知識對于選擇應該包含在模型中的特定變量只能提供微弱的指導。(1)強加結構來選擇K,這種方法只有在K < N時才可行,如AIC比較所有可能的模型組合,這只對小K可行,當K較大時,特別是在處理空間或時間上不一致的高分辨率數(shù)據(jù)時,數(shù)據(jù)通常是通過提取相關的手工特性來聚合的,這種聚集度量的設計需要特定的領域知識,信息的丟失是不可避免的。(2)使用數(shù)據(jù)驅(qū)動的降維技術,如主成分分析(PCA)。貝葉斯變量選擇或模型平均方法更靈活,理論上也更一致,但在行業(yè)中并不常用。機器學習法在解決大K問題,尤其是K>N時很有用。但是即使當N > K時,這些方法也經(jīng)常是有用的。一些不利于模型復雜性的機器學習方法,如lasso可以被視為變量選擇技術,樹形模型用于內(nèi)部變量選擇也可以很好地處理不相關的解釋變量。(1)無監(jiān)督的降維方法,例如用于貪婪分層預訓練的(堆疊)自動編碼器或者作為特征提取器。Li等(2016年)使用自動編碼器基于傳感器數(shù)據(jù)提供更好的空氣污染預測,同時考慮到空間和時間相關性,并避免使用人工設計的特征。 Zapana等人(2017年)使用自動編碼器提取特征來表征大氣候時間序列數(shù)據(jù)。 Liu等(2015年)、薩哈、米特拉和南軍地亞(2016年)和李等人(2018年)分別使用自動編碼器來獲得天氣、季風和水質(zhì)預報。 Bianchi等(2018)、Li等(2018)將自動編碼器還與RNNs相結合,以捕捉時間動態(tài)并處理丟失的觀測數(shù)據(jù)。 優(yōu)點:可以利用未標記的數(shù)據(jù)。缺點:它們旨在盡可能多地保留底層數(shù)據(jù)的變化,但沒有考慮到對于給定的任務,某些變化比其他變化更相關。例如,對于產(chǎn)量預測,天氣的某個變化可能是不相關的(例如,生長海子外部的溫度)。端到端學習方法可以考慮哪種變化最相關,但要求有“足夠”的標記數(shù)據(jù), “足夠”取決于輸入數(shù)據(jù)的維度和問題的復雜性。RNNs和CNNs非常適合處理大的K,特別適用于觀測在空間或時間上不重合的情況。與無監(jiān)督方法相比,神經(jīng)網(wǎng)絡的目標不是盡可能多地保留變異,而是提取與有監(jiān)督預測任務相關的特征。①RNNs的一個缺點是,盡管它們的體系結構擅長記憶事件的時間順序,但它們不能很好地檢測某個事件發(fā)生在哪個位置。此外,盡管RNN理論上可以記憶任意長度的序列,但在實踐中,一旦輸入序列變得過長,它們的性能就會迅速下降。②CNN具有更長的有效記憶,并能處理更大的序列長度。同時,在CNN中,事件的時間安排可以更自然地預先安排。該模型因此可以得知冬季的天氣事件與春季的天氣事件有不同的影響。(四)因果推理和識別我們沒有觀察到未經(jīng)處理的觀察結果(或經(jīng)處理的對照觀察結果)會發(fā)生什么,需要預測反事實。大多數(shù)因果推理的計量經(jīng)濟學方法都假設某種結構。例如,最近鄰對傾向分數(shù),將由幾個匹配變量組成的多維對象折疊成一維鄰近度量的不同方式。①雙重穩(wěn)健回歸:A.匹配處理和對照觀察B.使用由它們的匹配傾向分數(shù)加權的觀察進行的處理來回歸結果。這種方法對于匹配或回歸階段的錯誤指定都是穩(wěn)健的。②合成控制:其在處理前對結果匹配,當處理單位很少但時間序列較長時是有用的。局限性是對于許多可能的控制觀察,估計每個控制的權重可能是有問題的。(2)雙重差分(Difference In Differences)如果處理的選擇是基于非時變的不可觀測數(shù)據(jù),并且觀察了處理后的觀測數(shù)據(jù)的預處理,那么就可以簡單地應用一個單位固定效應的“雙重差分”方法。局限性為模型假設平行趨勢和普通沖擊對處理單位和控制單位有相同的影響。如在評估一個地區(qū)的政策變化時,假設經(jīng)濟沖擊對該地區(qū)和其他“控制”地區(qū)的影響相同,而當處理組中存在的異質(zhì)性未被建模時,對處理組的估計可能產(chǎn)生偏差。在內(nèi)生回歸的情況下,人們經(jīng)常使用兩階段最小二乘法(2SLS)的工具。局限性為它假設在第一階段和第二階段都是線性關系,以及處理的同質(zhì)性。(1)反事實模擬(Counterfactual Simulation)反事實模擬使用預處理和對照觀測的數(shù)據(jù),預測如果不進行處理,外源處理的觀測結果會發(fā)生什么變化。將這一預測與處理觀察的實際結果進行比較,可以確定處理效果。這些方法可用于隨機處理或控制處理分配的準實驗環(huán)境。DML結合了機器學習法的預測能力和解決正則化偏差的方法??紤]下面的模型,其中試驗的結果是處理的加性效應加上協(xié)變量的一些非線性函數(shù)(1),并且這些相同的協(xié)變量非線性地決定處理(3)匹配的機器學習方法和面板方法(ML Methods for Matching and Panel Methods.)。梯度增強樹已被用于醫(yī)學研究中的傾向分數(shù)匹配。模擬數(shù)據(jù)表明,在協(xié)變量之間的非線性和非加性關聯(lián)下,增強樹的表現(xiàn)很好。Doudchenko和Imbens (2016)使用彈性網(wǎng)絡(Elastic Net)來估計這些權重,因為從根本上來說,這是一個預測問題,其中控制觀測被用來預測趨勢前處理觀測。用于選擇的降維機器學習技術經(jīng)常與雙穩(wěn)健回歸相結合,以控制模型指定中的潛在誤差。當處理是由可觀察性決定時,標準方法是使用面板方法進行識別,建立一個差異框架。然后控制可能與處理位置相關的非時變的不可觀察的事物。一些作者已經(jīng)將機器學習方法用于面板設置,以允許降維和更靈活的功能形式。可能存在的問題:A.許多系數(shù)實際上為零的假設可能與大多數(shù)個體異質(zhì)性非零的觀點相沖突。B.我們通常假設同一個體的誤差隨著時間的推移是相關的,這可能影響使用正則化選擇的解釋變量的數(shù)量。①可以估計相當復雜的模型,根據(jù)預測能力選擇協(xié)變量作為權重,因此對于添加非信息協(xié)變量是穩(wěn)健的。②可以在無基礎的情況下一致地評估異基因處理效果。他們的算法生長“誠實”的樹,根據(jù)一個子樣本估計分裂,根據(jù)另一個子樣本估計處理效果。③可以在純預測任務中生成置信區(qū)間也很有用。與DML相反,因果森林僅限于這種特定的機器學習法,以控制協(xié)方差對結果的影響。Chernozhukov等人(2018)應用幾種機器學習方法來估計隨機處理對小額信貸干預對借款、自營職業(yè)和消費的異質(zhì)性影響。他們確定受影響最大和最小的群體以及與他們相關的特征。 Carter, Tjernstr?m and Toledo (2019)使用廣義隨機森林來評估Nicaragua小企業(yè)項目對農(nóng)民結果的異質(zhì)性影響,并找出對弱勢家庭的最大影響。雖然他們發(fā)現(xiàn)總體成果不大,但那些在基線時處于不利地位的家庭從該方案中獲益更多,突出了鎖定目標的潛在好處。 Rana和Miller (2019年)使用因果森林結合匹配來估計印度兩種類型森林管理方案的異質(zhì)性影響。 如果預測因子與誤差項不相關,即它們是外生的,那么反事實結果的預測只能識別政策或處理效果。有幾篇論文采用機器學習技術來選擇子集,以預測線性IV回歸的第一階段。Deep IV是一種2LS類型的方法,該方法使用機器學習法技術來放松2LS的限制性線性和同質(zhì)性假設,并克服了非參數(shù)IV方法的計算限制。與其他機器學習方法一樣,它也提供了一種變量選擇的算法方法,這在面對大量可能的工具時可能是有用的。Deep IV第一階段的估計方法是一個直接的監(jiān)督預測任務,其中靈活的機器學習法工具,如神經(jīng)網(wǎng)絡,可以用來預測復雜的儀器和控制對處理的非線性影響。第二階段也是受監(jiān)督的機器學習設置。然而,用這種方法訓練神經(jīng)網(wǎng)絡更加復雜,因為它需要在訓練期間評估積分以導出損失函數(shù)的梯度。(五)政策分析模擬除了計量經(jīng)濟學應用之外,我們的專業(yè)還大量使用計算模擬模型,尤其是用于政策分析。與政策相關的模型或建模系統(tǒng)的復雜性不斷增加,這種復雜性在應用和校準中產(chǎn)生了巨大的計算需求。ABM模型越來越多地被用作分析農(nóng)業(yè)和環(huán)境經(jīng)濟問題。盡管它們很適合分析個體之間復雜的相互作用所產(chǎn)生的動態(tài)關系和涌現(xiàn)出的現(xiàn)象,但它們的區(qū)域覆蓋范圍、個體數(shù)量或模擬的個體行為復雜性通常受到計算約束等因素的限制。(1)代理模型(Surrogate Modelling)代理模型,也稱為元模型(Meta-Modelling)或響應面模型(Response Surface Modelling),近似基礎復雜模型的輸入和輸出之間的映射。這種方法的潛在優(yōu)勢在于,預測的準確性和維數(shù)僅受模型生成的待逼近數(shù)據(jù)量的限制。①可用于模型校準,并在水資源建模,陸地表面模型,建筑能源需求和材料科學中廣泛應用。使用代理模型進行校準的基本思想:A.在模擬模型輸出的樣本上訓練替代模型;B.基于該代理模型執(zhí)行校準,以找到與經(jīng)驗觀察數(shù)據(jù)最接近的參數(shù)值。這種方法仍然需要運行相對大量的底層模型來生成樣本以訓練代理模型。為了緩解這一問題,可采用自適應抽樣(Adaptive Sampling)或迭代標定法(Iterative Calibration)等方法。(2)生成式對抗網(wǎng)(Generative Adversarial Nets ,GANs) GANs訓練一個生成器和一個鑒別器模型。生成器旨在學習生成與實際圖像相似的圖像,而鑒別器旨在學習如何有效區(qū)分生成的圖像和實際圖像。將鑒別器結果反饋給發(fā)生器并以迭代方式提高其性能。在模型校準的情況下,模型生成器可以探索以何種方式來調(diào)整模型的參數(shù),使得生成的輸出數(shù)據(jù)盡可能接近觀察數(shù)據(jù),同時訓練鑒別器來區(qū)分生成的數(shù)據(jù)和觀察數(shù)據(jù)。優(yōu)點:不需要事先指定比較標準,鑒別器自己學習哪些特征對檢測生成的數(shù)據(jù)最有用;而發(fā)生器的目標是盡可能接近地模擬觀察到的數(shù)據(jù)。四、經(jīng)濟學家能給機器學習帶來什么(一)為什么單純的數(shù)據(jù)驅(qū)動模型是不夠的?盡管數(shù)據(jù)可用性有所提高,但在許多應用中,我們?nèi)匀幻媾R數(shù)據(jù)及其標簽的短缺。例如,當處理罕見事件時,或者當結果非常嘈雜時,或者在處理高度復雜的過程和動態(tài)變化的非平穩(wěn)模式時,即使是“大數(shù)據(jù)”也可能是不夠的,在這些情況下,發(fā)現(xiàn)虛假相關性和發(fā)現(xiàn)非泛化關系的風險都很高。例如,手機數(shù)據(jù)只提供給那些能夠使用手機的人;標簽的質(zhì)量可能因國家或地區(qū)而異。(二)理論知識可以從兩個方面幫助應對這些數(shù)據(jù)挑戰(zhàn)。1.理論領域的知識可以幫助理解一個模型為什么工作以及它是否已經(jīng)學會了合理的關系。2.結合理論知識可以提高機器學習法的效率(見第3.1節(jié)),尤其是在所描述的數(shù)據(jù)信息有限且過程復雜的情況下。五、前沿研究(一)提高機器學習的預測性能經(jīng)濟理論通常提供關于行為函數(shù)曲率(生產(chǎn)前沿、利潤函數(shù))或邊際效應符號的信息。這種附加的結構信息在數(shù)據(jù)可用性有限和特征之間的復雜交互關系的情況下可能特別有幫助。2. 監(jiān)督方法和非監(jiān)督方法相結合(二)用于統(tǒng)計推斷將ML與統(tǒng)計推斷過程相結合,從變分推理程序的具體情況發(fā)展到一個通用的方法,只需要說明一個概率經(jīng)濟模型,就可以從中產(chǎn)生一個隨機樣本。(三)用于模型模擬1.強化學習(Reinforcement Learning)強化方法通過選擇不同的動作并觀察相關的獎勵來學習,是一種優(yōu)化方法。它們特別適合于順序設置,其中代理按順序執(zhí)行多個操作,之前的操作影響后續(xù)操作的結果,并且反饋不是即時的,而是延遲的。他們也能處理不確定的環(huán)境,其結果不是決定性的。強化學習越來越多地用于博弈論環(huán)境,但迄今為止政策相關性有限。進一步的發(fā)展可能有潛力在更具描述性的、與政策相關的模型中建立具有學習代理的模型,例如,代理根據(jù)自己的經(jīng)驗和環(huán)境(網(wǎng)絡)提供的信息做出最佳戰(zhàn)略選擇。GANs中的生成器和鑒別器算法之間的相互作用允許該方法了解什么特征是重要的,而不必先驗地選擇要校準的數(shù)據(jù)的特定的有限特征。因此可利用復雜的數(shù)據(jù)結構,并且生成的仿真模型通常更有效。(四)保護隱私的機器學習機器學習法研究的一個新的活躍領域促進了在多個數(shù)據(jù)集上模型的分布式訓練,這些數(shù)據(jù)集不需要被共享。鑒于機器學習從數(shù)據(jù)中獲取信息的強大能力,僅僅移除個人標識符已被證明不足以保護參與者的身份。此外,數(shù)據(jù)泄露正變得越來越普遍,引起了學者們對收集或分析機密數(shù)據(jù)的擔憂。保護隱私的機器學習對未來的經(jīng)濟學家來說可能很重要,既允許使用機密數(shù)據(jù),又有利于合作。
|