|
計量經(jīng)濟圈昨天發(fā)送的文章《省級面板數(shù)據(jù)很不妥, 省級空間計量更荒謬》,僅僅是從一個統(tǒng)計學(xué)家的角度來看待這個問題。而在經(jīng)濟學(xué)實際研究過程中各位圈友還是需要以問題為導(dǎo)向,畢竟國際上非常好的期刊都有不少使用州級面板數(shù)據(jù)做的(空間計量)的好文章。因此,那篇文章權(quán)當作是從另一個角度的思考,提出問題很重要,但解決問題更重要,而在問題沒有很好解決之前咱們就按照已有的方法做好研究。 來源在文章后面. 以下是由三個短文組成, 但是都圍繞今天的主題,值得細讀, 歡迎到計量社群交流. 1. 謝宇教授講社會科學(xué)和自然科學(xué)的關(guān)系 其實,這個問題是很大的,任何一個搞社會科學(xué)的人都會接觸到這個問題,就是社會科學(xué)與自然科學(xué)的關(guān)系是什么?你們當中有不少是學(xué)社會學(xué)的,很多老師也學(xué)過社會學(xué)方面的課,了解很多社會學(xué)的知識,所以我想你們對社會學(xué)有一定的認識,從一些課程中學(xué)到了很多社會學(xué)的知識,比如中國的現(xiàn)狀,中國的人口,中國的家庭,中國的文化,中國的民族等等。但是我想提出這樣一個命題,我覺得你可能學(xué)了很多東西,對社會有很多了解,有很多關(guān)于社會的知識,但是你可能還沒有學(xué)到社會學(xué)的核心。社會學(xué)的核心是什么呢?我認為社會學(xué)的核心并不是知識,并不是關(guān)于社會的知識,而是關(guān)于得到知識的手段和方法。并不是說你從一些學(xué)者的言論中得到多少知識,而是你對他們的言論的一些批判的見解,這是更重要的。也并不是說你一定要知道什么理論,對于我而言,知道什么并不重要,而是要知道你應(yīng)該知道什么,什么是對的,什么是衡量知識的標準。所以就我個人看來,社會學(xué)的學(xué)習(xí)就是要培養(yǎng)一種批判性的思考。 知識是變化的,社會是變化的,尤其是中國社會現(xiàn)在變化得那么快,你今天學(xué)的東西到明天可能就沒有用了,但是你應(yīng)該知道什么樣的知識是對的,什么是錯的,就是你要對它作一個評價,他的結(jié)論是不是有道理,并不是說名人說的話就一定是正確的,不要跟著人家跑。所以我在訓(xùn)練學(xué)生的時候,特別強調(diào)學(xué)生的獨立性思考,批判性思考,質(zhì)疑他說得對不對,結(jié)論有沒有道理。我為什么這樣講呢,我做過很多這方面的研究,知道的東西比較多,剛才馬老師也講了,我做過美國最重要的社會學(xué)刊物的副主編,還做過一些其它的工作。假如你仔細看一下社會學(xué)的東西,很多社會學(xué)的東西在方法來上是靠不住的,錯誤很多。 有的人認為社會學(xué)就是技術(shù)性的東西,只是做簡單描述;也有的人認為社會學(xué)只是對政策表示贊同意見。其實,社會學(xué)是一門嚴格的科學(xué),要做好并不容易。很多人在方法論上犯錯誤,是因為他的研究在方法論上站不住腳。一個好的學(xué)者,不但要發(fā)表自己的言論和觀點,還要知道自己的言論和觀點的缺陷和不足在什么地方。比如說現(xiàn)在他有一個假設(shè),但是他擁有的證據(jù)不足,并不能說明他的假設(shè)是成立的,就應(yīng)該知道自己的論點的缺陷性,尤其是在方法論上的缺陷性,假如不能認識到這點缺陷性,你的研究就可能出問題。 我現(xiàn)在講一個很簡單的例子,這是一個在假設(shè)上犯錯誤的例子。我有一個研究生,他提出了這樣一個假設(shè),說一個人的數(shù)學(xué)成績?nèi)Q于他的語言能力,語言能力強,數(shù)學(xué)成績就高。這就是一個假設(shè)出來的理論模型。他有了這個理論模型之后,就想做一個驗證,他就制定了這樣一個研究方案。他去了兩個班,一個是數(shù)學(xué)101班,這個班是一個基礎(chǔ)班,有100個學(xué)生。另外一個班是數(shù)學(xué)501班,是給研究生上的高級班,這是一個小班,只有10個學(xué)生。這個研究生到了這兩個班上收集了這樣一個數(shù)據(jù),他問這兩個班上的同學(xué),你認為你的語音能力怎么樣,數(shù)學(xué)成績怎么樣,強還是不強,強就用1表示,不強就用0表示。在101班上,100個學(xué)生有90個學(xué)生說他的語言能力強,有94個學(xué)生說他的數(shù)學(xué)能力強。在501班上,10個學(xué)生有8個說他語言能力強,有9個學(xué)生說他的數(shù)學(xué)能力強。這個研究生收集好數(shù)據(jù)之后,第二天就很高興地跑到我辦公室來,說他收集的數(shù)據(jù)證明了他的假設(shè),因為一個班上的同學(xué)語音能力強,數(shù)學(xué)能力也將,另一個班上,學(xué)生的語言能力低,數(shù)學(xué)能力也低,這就證明了他的理論假設(shè),讓我給他答辯。假設(shè)你是我,你會給他提出什么樣的批評?這樣的數(shù)據(jù)存在什么毛病?我想聽聽你們的意見。 學(xué)生一:1和0是定類變量,不足以客觀描述出具體的強弱狀態(tài);另外,他是通過一種主觀測評來獲得數(shù)據(jù),是被測者自己說的,因此數(shù)據(jù)的客觀性不強。 學(xué)生二:我認為他在抽樣上存在問題,他得出的數(shù)據(jù)不具有統(tǒng)計上的意義。 學(xué)生三:兩種能力的相關(guān)可能是虛假的。 學(xué)生四:他是通過集體的語言能力和數(shù)學(xué)能力來判斷個人在這兩種能力上的相關(guān)性。 學(xué)生五:樣本太小,調(diào)查的數(shù)量不夠。 學(xué)生六:他調(diào)查的學(xué)生是兩個不同層次的,他們之間不具有可比性。好,很不錯。這個數(shù)據(jù)存在很多問題,一個是樣本規(guī)模太小,其中的差異在統(tǒng)計學(xué)上未必是顯著的。二是這兩種能力并不存在因果關(guān)系,這種相關(guān)是一種偽相關(guān)。第三個是天花板效應(yīng),這是一個測量的問題,在做好與差兩種選擇時,大家都感覺很好,這是美國社會的一個普遍現(xiàn)象,這就顯示不出其中的差異性。還一個是選擇性偏差,他收集數(shù)據(jù)時是以班級為單位,而他選擇的班級存在級別上的差異,他們之間不具有可比性。第五個是測度問題,他的數(shù)據(jù)是由被測者自己報的,學(xué)的簡單的就感覺好,自我感覺好的就報好,這是由主觀因素主導(dǎo)的,缺乏客觀性。 第六個是他的驗證存在一個生態(tài)學(xué)謬誤,他的理論假設(shè)是以個人為單位的,是說個人的語言能力高會導(dǎo)致數(shù)學(xué)成績好,這是對于個人而言的,而他做的數(shù)據(jù)和得出的結(jié)論中是以班級為單位的,但是在班級中有些人可能數(shù)學(xué)成績好,但是語言能力差,有些人數(shù)學(xué)成績差,但是語言能力強,他們的關(guān)系可能是正的,可能是負的,也可能不存在關(guān)系。這就是說,當你的數(shù)據(jù)層次和你的理論層次不吻合的時候,你的數(shù)據(jù)可能說明不了你的理論,甚至有可能和你的理論是相反的。這就是為什么以團體為單位來研究問題經(jīng)常會出錯誤,因為這反映不了個人層次上的現(xiàn)象。這一點我在以后的講座會詳細講到。 2. 研究方法運用與社會科學(xué)研究失“真”的案例 盡管社會科學(xué)研究有著鮮明的科學(xué)特征,并有嚴格的方法學(xué)程序以保障研究的真實性。但在真實的研究中仍然由于方法使用不當造成的研究失“真”的案例。下面旨在討論一“失真”的個案,討論如何利用方法學(xué)的約束更好地開展實證研究的可能。 熱浪之爭與區(qū)位謬誤 2002年,社會學(xué)家克蘭納伯格(Klinenberg)出版了一本針對1995年芝加哥熱浪的社會學(xué)研究,克蘭納伯格運用社會學(xué)視角回答在芝加哥熱浪事件中,不同社會群體及鄰近街區(qū)間的死亡率差異。他指出貧困的黑人族群聚集地區(qū)社群的生態(tài)環(huán)境是高死亡率的重要影響因素,這些生態(tài)因素包括高犯罪率、街道空置率、低人口密度及隨之而來的個體孤立(Klinenberg,2003:P124)。該書出版后引起巨大反響,獲得多項學(xué)術(shù)和圖書類的獎項,被視為城市社會學(xué)研究的經(jīng)典之作。 2006年,社會學(xué)家鄧奈爾(Duneier,2006)在《美國社會學(xué)評論》撰文,批評克蘭納伯格的研究存在致命的缺陷。他認為克蘭納伯格僅僅只是收集到社區(qū)層面的數(shù)據(jù)而并有任何個體層面的信息,其推斷結(jié)果的有效性就值得懷疑。通過實地的回訪(鄧奈爾回訪了克蘭納伯格研究中涉及街區(qū)的死者親屬及街坊鄰居等),他認為克蘭納伯格的推斷難以成立。比如他發(fā)現(xiàn)獨居人口更多的白人社區(qū)死亡率更小。回訪獲得證據(jù)表明,酗酒和吸毒者更容易在熱浪來襲過程中死亡。鄧奈爾判斷,吸毒和酗酒的人士在熱浪來襲時獨處在沒有空調(diào)的家中才是黑人社群死亡率的根本原因。因此,他批評克蘭納伯格推斷存在著明顯的生態(tài)學(xué)謬誤(the ecological fallacy),導(dǎo)致整個研究結(jié)果的偏差。 區(qū)位謬誤并不是新鮮名詞,它由社會學(xué)家羅賓遜(Robinson)在20世紀五十年代提出,隨即引起廣泛的討論。區(qū)位謬誤指的是以區(qū)位為單位得到的結(jié)果也可以在區(qū)位的個體中獲得證實(巴比,2009:P102)。以克蘭納伯格的研究為例,更高層級的數(shù)據(jù)即是社群的生態(tài)環(huán)境,他試圖用社區(qū)生態(tài)環(huán)境的證據(jù)說明社群死亡率的差異,推斷個體死亡的原因。Duneier強調(diào),克蘭納伯格的數(shù)據(jù)只代表了兩個社群狀況的不同,它與死亡率之間二者的相關(guān)關(guān)系也有可能是偽相關(guān),可以將該證據(jù)作為兩個社群存在死亡率差異的佐證,但卻不能有效地解釋社群中的個體為什么會死亡的原因。他強調(diào),基于田野調(diào)查、觀察、采訪等人類學(xué)方法進行的研究尤其要注意避免生態(tài)學(xué)謬誤的問題,運用更高層級的數(shù)據(jù)推斷個體的行為更需要小心謹慎。 3. 人人都應(yīng)該知道的統(tǒng)計相關(guān)性知識 《新英格蘭醫(yī)學(xué)雜志》曾刊登過一篇論文,聲稱吃巧克力可以提高認知功能。得出這一結(jié)論的根據(jù)是每個國家的諾貝爾獎得主數(shù)量與該國巧克力人均消費量具有強相關(guān)性。這靠譜嗎? 2012年,《新英格蘭醫(yī)學(xué)雜志》刊登了一篇論文,聲稱吃巧克力可以提高認知功能。得出這一結(jié)論的根據(jù)是每個國家的諾貝爾獎得主數(shù)量與該國巧克力人均消費量具有強相關(guān)性。令人詫異的是這篇論文竟然通過了同行評審,因為很顯然作者犯了兩個常見錯誤,這是生物醫(yī)學(xué)文獻中研究者進行相關(guān)分析時常犯的錯誤。 相關(guān)性描述了兩個現(xiàn)象之間的線性關(guān)系強度(為了簡化說明,這里著重闡述最常用的線性關(guān)系——皮爾森相關(guān)):例如,一個變量值的增加可能會跟隨著另一個變量值的增加;或者可能是負相關(guān),一個變量的增加會伴隨另一個變量的減少。它們的關(guān)系是用一個無單位的數(shù)值來計算的,那就是相關(guān)系數(shù),其數(shù)值范圍是從-1到+1,絕對值越接近1,表示相關(guān)性越強。 錯誤1:集體相關(guān)=個體相關(guān) 《新英格蘭醫(yī)學(xué)雜志》那篇論文犯的第一個錯誤是在群體數(shù)據(jù)的基礎(chǔ)上得出關(guān)于個體的結(jié)論,陷入了生態(tài)學(xué)謬誤中。這個案例中,作者計算了集合層面(國家)的相關(guān)系數(shù),然后錯誤地把這個數(shù)值用于得出關(guān)于個體層面的結(jié)論(吃巧克力提高認知功能)。實際上,個體層面的準確數(shù)據(jù)完全是未知的:沒有人收集過諾貝爾獎得主吃過多少巧克力的數(shù)據(jù),甚至于他們到底是否吃過。事實上,加利福尼亞大學(xué)圣迭戈分校的比阿特麗斯·戈隆布(Beatrice A. Golomb)的研究團隊檢驗了這個假設(shè),指出兩個變量之間根本不存在相關(guān)性。 該論文從未被撤回,至今已被引用23次。即使錯誤的論文被撤回,相關(guān)新聞報道還保留在互聯(lián)網(wǎng)上,還能繼續(xù)傳播錯誤信息。如果這些對統(tǒng)計分析有所誤解的錯誤結(jié)論甚至能出現(xiàn)在《新英格蘭醫(yī)學(xué)雜志》這樣的著名期刊,那么人們會很好奇,這樣的錯誤出現(xiàn)在生物醫(yī)學(xué)文獻中的總體頻率有多大? 錯誤2:相關(guān)關(guān)系=因果關(guān)系 第二種曲解相關(guān)性分析的錯誤更常見,即把相關(guān)性等同于因果關(guān)系。兩個因素之間表現(xiàn)出一種關(guān)系,可能不是意味著它們之間相互影響,而是意味它們都被同一個隱藏的因素影響。在巧克力消費量和諾貝爾獎得主的例子中,可能是一個國家的富裕程度同時影響了巧克力的消費量和高等教育的可獲取性。由此可見,完全無關(guān)的現(xiàn)象也可能會可笑地呈現(xiàn)出相關(guān)性。相關(guān)性可以很肯定地指出一個可能存在的因果關(guān)系,但是并不足以證明存在這樣的因果關(guān)系。 即使科學(xué)家很清楚相關(guān)性不等于因果關(guān)系,但是把兩者混為一談的研究在頂級期刊中還是很普遍。比如,一項1999年發(fā)表在《自然》雜志上的研究發(fā)現(xiàn),兩歲以下兒童的近視和睡眠期間夜間環(huán)境光曝光度存在強相關(guān)。但是,2000年發(fā)表在《自然》雜志上的另一項研究結(jié)果駁斥了上述發(fā)現(xiàn),指出兒童近視的原因是遺傳性的,而不是環(huán)境因素造成的。這個新的研究發(fā)現(xiàn)父母近視與兒童近視之間存在強相關(guān),指出近視的父母為孩子的臥室夜間開燈的可能性更大。在這個例子中,作者基于假想的關(guān)聯(lián)得出了一個結(jié)論,而沒有檢查其他可能的解釋。 安斯庫姆四重奏是統(tǒng)計特性非常相似的四組數(shù)據(jù)圖,盡管統(tǒng)計上貌似都顯示出很強的線性相關(guān)關(guān)系(相關(guān)系數(shù)都為0.816),這樣的結(jié)論卻只適用于左上圖,另外三幅圖都違反了統(tǒng)計分析的假設(shè),由此強調(diào)了選擇一個合適的數(shù)據(jù)分析之前首先繪制數(shù)據(jù)圖的重要性。 錯誤3:相關(guān)系數(shù)為零=變量相互獨立 第三種相反類型的相關(guān)錯誤是認為相關(guān)性為零就意味著兩個變量相互獨立。如果兩個變量之間相互獨立,我們可以推出這兩個變量之間的線性相關(guān)系數(shù)為零。反之則不一定成立,線性相關(guān)系數(shù)為零不一定意味著兩個變量相互獨立。 讓我們玩一個拋硬幣確定投注金額的游戲:若第一次是正面朝上、第二次是反面朝上,則輸10美元;如果第一次是反面朝上、第二次是正面朝上,則贏20美元。如果我們定義X為投注金額、Y為凈獲勝金額,那么X和Y可能會是零相關(guān),但是它們不是相互獨立的——因為如果你知道X的值,就能知道Y的值。 1973年,英國統(tǒng)計學(xué)家弗蘭克·安斯庫姆(Frank Anscombe)用一組理想化的數(shù)據(jù)圖形象地展示了這種誤解,稱為安斯庫姆四重奏(Anscombe’s quartet)。 迷信數(shù)據(jù)模型的危害 著名統(tǒng)計學(xué)家喬治·博克斯(George E. P. Box),在他的著作《實證模型的建立與響應(yīng)面》中寫道:“本質(zhì)上而言,所有統(tǒng)計模型都是錯誤的,但是其中有一些是有用的。”所有統(tǒng)計模型都是使用數(shù)學(xué)概念對一個真實世界中的現(xiàn)象的描述,所以只是現(xiàn)實的一種簡化。如果統(tǒng)計分析是精心設(shè)計的,并且對所用方法的局限性有徹底的理解,那么,它們會非常有用。否則,統(tǒng)計模型不僅會不準確、毫無用處,而且還具有潛在的危險性——誤導(dǎo)醫(yī)生和公眾。 我經(jīng)常使用和設(shè)計數(shù)學(xué)模型來探究公共健康問題,尤其在健康技術(shù)評估中。如果不加批判地使用已經(jīng)發(fā)表的研究成果中的數(shù)據(jù)來設(shè)計這些數(shù)學(xué)模型,可能會得出關(guān)于公共健康的不準確、完全無用甚至不安全的結(jié)論,因而對人類健康和公共政策產(chǎn)生重大影響。 例如,加利福尼亞大學(xué)舊金山分校的流行病學(xué)家史蒂芬·赫利(Stephen Hulley)及其同事發(fā)表的一個隨機控制實驗確定,激素替代療法會導(dǎo)致冠狀動脈心臟疾病的風險增加,盡管以前發(fā)表的非實驗研究的結(jié)論是,激素替代療法會降低冠狀動脈心臟疾病的風險。這個精心設(shè)計的實驗表明,非實驗研究中低于冠狀動脈心臟疾病平均概率的結(jié)果,是由那些使用激素治療的人具有更高的平均社會經(jīng)濟地位導(dǎo)致的,而不是由療法本身導(dǎo)致。對非實驗研究的重新分析,包括社會經(jīng)濟地位對收入的影響分析,得出了與隨機控制實驗相同的結(jié)果。但是損害已經(jīng)造成:美國食品藥品管理局顧問委員會已經(jīng)批準激素替代療法更換標簽,允許把預(yù)防心臟疾病列為一個指示,這幾乎是在上述實驗十年之前。 如何避免錯誤 上述相關(guān)性分析的三種錯誤都可以避免。流行病學(xué)家和統(tǒng)計學(xué)家奧斯汀·布拉德福德·希爾(AustinBradford Hill)在1965年表明,要得出因果關(guān)系的結(jié)論,就必須滿足一定的判定標準。那些判定標準依然有效,但是科學(xué)家還研究出了從觀察到的數(shù)據(jù)得出因果推論的更新的方法。還有一些方法正在研究中——例如,朱迪亞·珀爾(Judea Pearl)和詹姆斯·羅賓斯(James Robins)各自獨立地介紹了一種從非實驗研究中得出因果推論的新框架。羅賓斯研究出了一種統(tǒng)計解決方法,能把非實驗數(shù)據(jù)轉(zhuǎn)化為如同從一個隨機控制實驗中得出的數(shù)據(jù)。 生態(tài)學(xué)謬誤通常會在流行病學(xué)研究中發(fā)生,當研究者只能獲得集合數(shù)據(jù)時。在其1997年的著作《生態(tài)學(xué)推理問題的一種解決方法》中,哈佛大學(xué)的加里·金(Gary King)描述了導(dǎo)致這種錯誤的統(tǒng)計困難:用于生態(tài)學(xué)推論的數(shù)據(jù)往往具有龐大級別的異方差,這意味著一個數(shù)據(jù)集內(nèi)部不同部分的差異性在很大的數(shù)值范圍內(nèi)波動。為了避免這種謬誤,希爾建議那些缺乏個體層面的數(shù)據(jù)的研究者應(yīng)該進行認真的多層面的數(shù)據(jù)建模,在生態(tài)學(xué)數(shù)據(jù)的基礎(chǔ)上補充個體層面的數(shù)據(jù)。 為了避免因為相關(guān)系數(shù)為零就假定這兩個變量是相互獨立的,必須對數(shù)據(jù)進行繪圖以確定數(shù)據(jù)是單調(diào)的。如果數(shù)據(jù)不單調(diào),可以把其中一個變量或者兩個變量都轉(zhuǎn)換成單調(diào)的變量。在數(shù)據(jù)變換中,每一個變量的所有數(shù)值都使用同一個等式重新計算,這樣能保持兩個變量之間的關(guān)系,但是它們的分布改變了。不同的數(shù)據(jù)分布使用不同類型的數(shù)據(jù)變換。例如,對數(shù)變換壓縮了大數(shù)值的間隔,擴大了小數(shù)值的間隔,當數(shù)組的平均值更大、變動也更大的情況下,這種數(shù)據(jù)變換是合適的。 相關(guān)性錯誤和統(tǒng)計學(xué)本身一樣古老,但是隨著發(fā)表的論文和新期刊的數(shù)量不斷增長,這樣的錯誤也在倍增。盡管期望所有研究人員都對統(tǒng)計學(xué)方法有深入理解是不現(xiàn)實的,但是研究人員必須持續(xù)關(guān)注并不斷擴展基本的統(tǒng)計學(xué)方法和知識。不知道或是不加批判地評估所使用的統(tǒng)計學(xué)方法的充分性和局限性,通常是學(xué)術(shù)論文中所犯錯誤的根源。在一個研究團隊中有生物統(tǒng)計學(xué)家和數(shù)學(xué)家的參與不再是一個優(yōu)勢而是必需。 科學(xué)研究的過程要求足夠的生物統(tǒng)計學(xué)知識,而這是一個不斷變化的領(lǐng)域。生物統(tǒng)計學(xué)家應(yīng)該在一開始就參與課題研究,而不是等到測量、觀察或是實驗完成以后。另一方面,在批判性地評價發(fā)表的科學(xué)論文時,生物統(tǒng)計學(xué)的基本知識也是必需的。在生物學(xué)研究中更謹慎地使用統(tǒng)計學(xué),也有助于在其他領(lǐng)域設(shè)定更嚴格的標準。 為了避免這些問題,科學(xué)家必須清楚地表明他們理解了一個統(tǒng)計學(xué)分析背后的假設(shè),并且用他們的方法解釋:為了確定他們的數(shù)據(jù)集滿足那些假設(shè),他們做了哪些工作。如果一篇論文沒有嚴格遵循這些研究規(guī)范,就不應(yīng)該通過評審。即使當評審者有所疏漏的情況下,采取這些步驟也能加快發(fā)現(xiàn)錯誤的過程,增加科研過程的透明度,支撐公眾對科學(xué)的信心,最重要的是,避免因無心的錯誤而對公眾健康造成損害。 |
|
|