电竞比分网-中国电竞赛事及体育赛事平台

分享

數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵探討

 楊濟(jì)熜 2018-02-02

一、統(tǒng)計(jì)學(xué)視角下的數(shù)據(jù)科學(xué)

統(tǒng)計(jì)學(xué)研究的對(duì)象是數(shù)據(jù),數(shù)據(jù)科學(xué)顧名思義也是以數(shù)據(jù)為研究對(duì)象,這產(chǎn)生一種直觀的錯(cuò)覺(jué),似乎數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)之間存在某種與生俱來(lái)的淵源關(guān)系。Wu(1998)直言不諱,數(shù)據(jù)科學(xué)就是統(tǒng)計(jì)學(xué)的重命名,相應(yīng)地,數(shù)據(jù)科學(xué)家替代了統(tǒng)計(jì)學(xué)家這個(gè)稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因?yàn)閿?shù)據(jù)量大本身并不足以促成“統(tǒng)計(jì)學(xué)”向“數(shù)據(jù)科學(xué)”的轉(zhuǎn)變,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些概念似乎就已經(jīng)足夠了。問(wèn)題的關(guān)鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個(gè)很寬泛的概念,只要是對(duì)客觀事物記錄下來(lái)的、可以鑒別的符號(hào)都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)科學(xué)所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結(jié)構(gòu)型數(shù)據(jù)為主)使基于關(guān)系型數(shù)據(jù)庫(kù)的傳統(tǒng)分析工具很難發(fā)揮作用,或者說(shuō)傳統(tǒng)的數(shù)據(jù)庫(kù)和統(tǒng)計(jì)分析方法很難在可容忍的時(shí)間范圍內(nèi)完成存儲(chǔ)、管理和分析等一系列數(shù)據(jù)處理過(guò)程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學(xué)。真正意義上的現(xiàn)代統(tǒng)計(jì)學(xué)是從處理小數(shù)據(jù)、不完美的實(shí)驗(yàn)等這類現(xiàn)實(shí)問(wèn)題發(fā)展起來(lái)的,而數(shù)據(jù)科學(xué)是因?yàn)樘幚泶髷?shù)據(jù)這類現(xiàn)實(shí)問(wèn)題而興起的。因此數(shù)據(jù)科學(xué)的研究對(duì)象是大數(shù)據(jù),而統(tǒng)計(jì)學(xué)以結(jié)構(gòu)型數(shù)據(jù)為研究對(duì)象。退一步,單從數(shù)量級(jí)來(lái)講,也已發(fā)生了質(zhì)變。對(duì)于結(jié)構(gòu)化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟(jì)的(有效性),實(shí)踐中還需要借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、并行處理技術(shù)等現(xiàn)代計(jì)算技術(shù)才能實(shí)現(xiàn)。

二、數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵

(一)理論基礎(chǔ)

數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來(lái)的,譬如,統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)習(xí)或稱統(tǒng)計(jì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計(jì)算、密集計(jì)算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計(jì)量經(jīng)濟(jì)學(xué)、文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)、生物統(tǒng)計(jì)學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計(jì)算機(jī)科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計(jì)學(xué)知識(shí)、專業(yè)應(yīng)用知識(shí)三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒(méi)有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識(shí),并沒(méi)有進(jìn)行實(shí)質(zhì)性的分析,就好似任何現(xiàn)實(shí)活動(dòng)都可以拆解為不同的細(xì)分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點(diǎn),數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計(jì)算機(jī)科學(xué)的一個(gè)替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒(méi)有作為一個(gè)獨(dú)立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個(gè)獨(dú)立的學(xué)科提出時(shí),將數(shù)據(jù)科學(xué)表述為統(tǒng)計(jì)學(xué)加上它在計(jì)算技術(shù)方面的擴(kuò)展。這種觀點(diǎn)表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對(duì)象)和分析方法上不斷擴(kuò)展的結(jié)果。一如統(tǒng)計(jì)學(xué)最初只是作為征兵、征稅等行政管理的附屬活動(dòng),而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴(kuò)展來(lái)看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴(kuò)展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴(kuò)展來(lái)看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計(jì)模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計(jì)算機(jī)實(shí)現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢(shì)越來(lái)越突出。注意到,數(shù)據(jù)分析有驗(yàn)證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個(gè)基本取向,但不論是哪一種取向,都有一個(gè)基本的前提假設(shè),就是觀測(cè)數(shù)據(jù)是由背后的一個(gè)(隨機(jī))模型生成,因此數(shù)據(jù)分析的基本問(wèn)題就是找出這個(gè)(隨機(jī))模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強(qiáng)調(diào)EDA是因?yàn)樗坏凸懒?。?shù)據(jù)導(dǎo)向是計(jì)算機(jī)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展的方向,這一觀點(diǎn)已被越來(lái)越多的統(tǒng)計(jì)學(xué)家所認(rèn)同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機(jī)制;而算法模型則認(rèn)為復(fù)雜的現(xiàn)實(shí)世界無(wú)法用數(shù)學(xué)公式來(lái)刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時(shí)對(duì)數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀(jì)80年代中期以來(lái)隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展而得到快速成長(zhǎng),然而很大程度上是在統(tǒng)計(jì)學(xué)這個(gè)領(lǐng)域之外“悄然”進(jìn)行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測(cè)變量記為x,擾動(dòng)項(xiàng)和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對(duì)y做出預(yù)測(cè),其中,f是一個(gè)有顯式表達(dá)的函數(shù)形式(若f先驗(yàn)假定,則對(duì)應(yīng)CDA;若f是探索得到的,則對(duì)應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等??梢?jiàn),傳統(tǒng)建模的基本觀點(diǎn)是,不僅要得到正確的模型———可解釋性強(qiáng),而且要得到準(zhǔn)確的模型———外推預(yù)測(cè)能力強(qiáng)。而對(duì)于現(xiàn)實(shí)中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實(shí)際的做法是直接去尋找一個(gè)恰當(dāng)?shù)念A(yù)測(cè)規(guī)則(算法模型),不過(guò)代價(jià)是可解釋性較弱,但是算法模型的計(jì)算效率和可擴(kuò)展性更強(qiáng)。基于算法的基本形式類似于非參數(shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低y←x,因?yàn)榉菂?shù)方法很多時(shí)候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過(guò)了函數(shù)機(jī)制的探討,尋找的只是一個(gè)預(yù)測(cè)規(guī)則(后續(xù)的檢驗(yàn)也是基于預(yù)測(cè)構(gòu)造的)。在很多應(yīng)用場(chǎng)合,算法模型得到的是針對(duì)具體問(wèn)題的解(譬如某些參數(shù)是被當(dāng)作一個(gè)確定的值通過(guò)優(yōu)化算法得到的),并不是統(tǒng)計(jì)意義上的推斷解。

(二)技術(shù)維度

數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對(duì)數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個(gè)毫無(wú)統(tǒng)計(jì)學(xué)知識(shí)的人應(yīng)用統(tǒng)計(jì)軟件也可以得到統(tǒng)計(jì)結(jié)果,但無(wú)論其過(guò)程還是結(jié)果都是可疑的,對(duì)統(tǒng)計(jì)結(jié)果的解釋也無(wú)法令人信服?!皬挠?jì)算機(jī)科學(xué)自身來(lái)看,這些應(yīng)用領(lǐng)域提供的主要研究對(duì)象就是數(shù)據(jù)。雖然計(jì)算機(jī)科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會(huì)得到更進(jìn)一步的加強(qiáng)”。不可否認(rèn),統(tǒng)計(jì)分析逐漸向計(jì)算機(jī)科學(xué)技術(shù)靠近的趨勢(shì)是明顯的。這一方面是因?yàn)?,?shù)據(jù)量快速膨脹,數(shù)據(jù)來(lái)源、類型和結(jié)構(gòu)越來(lái)越復(fù)雜,迫切需要開發(fā)更高效率的存儲(chǔ)和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計(jì)算機(jī)科學(xué)技術(shù)的迅猛發(fā)展為新方法的實(shí)現(xiàn)提供了重要的支撐。對(duì)于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計(jì)算機(jī)科學(xué)這個(gè)屬性的一個(gè)重要原因還不單純是因?yàn)樾枰y(tǒng)計(jì)軟件來(lái)協(xié)助基本的統(tǒng)計(jì)分析和計(jì)算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)那樣可以直接用于統(tǒng)計(jì)分析。事實(shí)上,面對(duì)越來(lái)越龐雜的數(shù)據(jù),核心的統(tǒng)計(jì)方法并沒(méi)有實(shí)質(zhì)性的改變,改變的只是實(shí)現(xiàn)它的算法。因此,從某種程度上來(lái)講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲(chǔ)、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對(duì),是如何實(shí)現(xiàn)統(tǒng)計(jì)分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒(méi)有實(shí)質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級(jí)來(lái)適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。

(三)應(yīng)用維度

在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的商業(yè)信息①的完整過(guò)程。數(shù)據(jù)科學(xué)家要同時(shí)具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說(shuō),數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來(lái)源、類型和存儲(chǔ)調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時(shí)對(duì)分析結(jié)果也能做出切合實(shí)際的解釋②。這實(shí)際上提出了兩個(gè)層面的要求:①長(zhǎng)期目標(biāo)是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個(gè)數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)學(xué)、商業(yè)分析等片段化碎片化的知識(shí)。②短期目標(biāo)實(shí)際上是一個(gè)“二級(jí)定義”,即,鼓勵(lì)已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計(jì)學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻(xiàn)中,對(duì)應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實(shí)際應(yīng)用。甚至有觀點(diǎn)認(rèn)為,數(shù)據(jù)科學(xué)是為應(yīng)對(duì)大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個(gè)“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計(jì)人員的基本素質(zhì)。對(duì)數(shù)據(jù)的簡(jiǎn)單收集和報(bào)告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強(qiáng)調(diào)對(duì)數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問(wèn)題(很多重要的問(wèn)題,我們非但不知道答案而且不知道問(wèn)題何在以及如何發(fā)問(wèn))。同時(shí)數(shù)據(jù)科學(xué)家要有良好的表達(dá)能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實(shí)清楚地表達(dá)給相關(guān)部門以便實(shí)現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會(huì)的角度來(lái)看,強(qiáng)調(diào)應(yīng)用這個(gè)維度無(wú)可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進(jìn)商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實(shí)務(wù)部門。不過(guò),早在20世紀(jì)90年代中期,已故圖靈獎(jiǎng)得主格雷(JimGray)就已經(jīng)意識(shí)到,數(shù)據(jù)庫(kù)技術(shù)的下一個(gè)“大數(shù)據(jù)”挑戰(zhàn)將會(huì)來(lái)自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號(hào)傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長(zhǎng)的科學(xué)研究數(shù)據(jù)進(jìn)行了廣泛的討論。格雷還進(jìn)一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上是將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開來(lái)了。

三、數(shù)據(jù)科學(xué)范式對(duì)統(tǒng)計(jì)分析過(guò)程的直接影響

以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個(gè)機(jī)構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說(shuō)大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個(gè)層面來(lái)說(shuō),將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當(dāng)。事實(shí)上,孤立的大數(shù)據(jù),其價(jià)值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當(dāng)放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價(jià)值。譬如消費(fèi)行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動(dòng)通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計(jì),微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購(gòu)物推薦,搜索數(shù)據(jù)用于流感預(yù)測(cè)、利用社交媒體數(shù)據(jù)監(jiān)測(cè)食品價(jià)等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無(wú)形中增強(qiáng)了對(duì)數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過(guò)去難以統(tǒng)計(jì)的指標(biāo)和變量提供了另辟蹊徑的思路。從統(tǒng)計(jì)學(xué)的角度來(lái)看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對(duì)統(tǒng)計(jì)分析過(guò)程的各個(gè)環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評(píng)價(jià)、發(fā)布等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個(gè)方面。

(一)數(shù)據(jù)收集方面

在統(tǒng)計(jì)學(xué)被作為一個(gè)獨(dú)立的學(xué)科分離出來(lái)之前(1900年前),統(tǒng)計(jì)學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個(gè)時(shí)期主要是全國(guó)范圍的普查登記造冊(cè),至多是一些簡(jiǎn)單的匯總和比較。之后(1920-1960年)的焦點(diǎn)逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計(jì)方法(統(tǒng)計(jì)推斷)以及現(xiàn)代意義上的統(tǒng)計(jì)調(diào)查(抽樣調(diào)查)正是在這個(gè)時(shí)期產(chǎn)生。隨后的45年里,統(tǒng)計(jì)方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來(lái)自于統(tǒng)計(jì)分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計(jì)調(diào)查方法通常是經(jīng)過(guò)設(shè)計(jì)的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實(shí)錄的、有機(jī)的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時(shí)都在增加(數(shù)據(jù)集是動(dòng)態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來(lái)源和類型更加豐富,數(shù)據(jù)庫(kù)間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問(wèn)題也變得更加復(fù)雜。隨著移動(dòng)電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識(shí)別住戶的有效工具變量,相應(yīng)的無(wú)回答率也在增加(移動(dòng)電話的拒訪率一般高于固定電話),同時(shí)統(tǒng)計(jì)調(diào)查的成本在增加,人口的流動(dòng)性在增加,隱私意識(shí)以及法律對(duì)隱私的保護(hù)日益趨緊,涉及個(gè)人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來(lái)越難以取得(從各國(guó)的經(jīng)驗(yàn)來(lái)看,拒訪率或無(wú)回答率的趨勢(shì)是增加的),對(duì)時(shí)效性的要求也越來(lái)越高。因此,官方統(tǒng)計(jì)的數(shù)據(jù)來(lái)源已經(jīng)無(wú)法局限于傳統(tǒng)的統(tǒng)計(jì)調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個(gè)人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。

(二)數(shù)據(jù)分析方面

現(xiàn)代統(tǒng)計(jì)分析方法的核心是抽樣推斷(參數(shù)估計(jì)和假設(shè)檢驗(yàn)),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠(chéng)然改進(jìn)算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達(dá)到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計(jì)學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來(lái)產(chǎn)生質(zhì)量,而不再需要用樣本來(lái)推斷總體。事實(shí)上,在某些場(chǎng)合(比如社會(huì)網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計(jì)算機(jī)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展無(wú)法回避的一個(gè)重要趨勢(shì)。算法模型不僅對(duì)數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計(jì)算效率上有很大的優(yōu)勢(shì)。特別是一些積極的開源軟件的支撐,以及天生與計(jì)算機(jī)的相容性,使算法模型越來(lái)越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲(chǔ)、傳輸?shù)却髷?shù)據(jù)管理方面的問(wèn)題。僅從數(shù)量上來(lái)看,信息爆炸、數(shù)據(jù)過(guò)剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)?、豐富的數(shù)據(jù)貧乏的知識(shí)……這些詞組表達(dá)的主要是我們匱乏的、捉襟見(jiàn)肘的存儲(chǔ)能力,同時(shí),存儲(chǔ)數(shù)據(jù)中有利用價(jià)值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對(duì)開采工具的渴求,當(dāng)時(shí)的情緒主要還是遷怨于盲目的記錄,把過(guò)多精力放在捕捉和存儲(chǔ)外在信息。在這種情況下,開采有用的知識(shí)等價(jià)于拋棄無(wú)用的數(shù)據(jù)。然而,大數(shù)據(jù)時(shí)代的思路改變了,開始變本加厲巨細(xì)靡遺地記錄一切可以記錄的數(shù)據(jù)。因?yàn)?數(shù)據(jù)再怎么拋棄還是會(huì)越來(lái)越多。我們不能通過(guò)刪減數(shù)據(jù)來(lái)適應(yīng)自己的無(wú)能,為自己不愿做出改變找借口,而是應(yīng)該面對(duì)現(xiàn)實(shí),提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當(dāng)前無(wú)用的數(shù)據(jù)將來(lái)也無(wú)用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲(chǔ)的成本。大數(shù)據(jù)存儲(chǔ)目前廣泛應(yīng)用的是GFS、HDFS等基于計(jì)算機(jī)群組的文件系統(tǒng),它可以通過(guò)簡(jiǎn)單增加計(jì)算機(jī)來(lái)無(wú)限地?cái)U(kuò)充存儲(chǔ)能力。值得注意的是,分布式文件系統(tǒng)存儲(chǔ)的數(shù)據(jù)僅僅是整個(gè)架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計(jì)分析。而NoSQL這類分布式存儲(chǔ)系統(tǒng)可以實(shí)現(xiàn)高級(jí)查詢語(yǔ)言,事實(shí)上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級(jí)查詢語(yǔ)言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫(kù)編程,二者的差異將變得越來(lái)越模糊。大數(shù)據(jù)分析的可行性問(wèn)題指的是,數(shù)據(jù)量可能大到已經(jīng)超過(guò)了目前的存儲(chǔ)能力,或者盡管沒(méi)有大到無(wú)法存儲(chǔ),但是如果算法對(duì)內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對(duì)也就“大”了。換句話說(shuō),可行性問(wèn)題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問(wèn)題指的是,盡管目前的硬件條件允許,但是耗時(shí)太久,無(wú)法在可容忍的或者說(shuō)可以接受的時(shí)間范圍內(nèi)完成。目前對(duì)有效性的解決辦法是采用并行處理。注意到,高性能計(jì)算和網(wǎng)格計(jì)算也是并行處理,但是對(duì)于大數(shù)據(jù)而言,由于很多節(jié)點(diǎn)需要訪問(wèn)大量數(shù)據(jù),因此很多計(jì)算節(jié)點(diǎn)會(huì)因?yàn)榫W(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會(huì)盡量在計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)的本地快速訪問(wèn)。因此,數(shù)據(jù)本地化是MapReduce的核心特征。

四、結(jié)論

(一)數(shù)據(jù)科學(xué)不能簡(jiǎn)單地理解為統(tǒng)計(jì)學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時(shí),數(shù)量級(jí)也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對(duì)象)和分析方法上不斷擴(kuò)展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來(lái)越受到學(xué)界的廣泛重視。

(二)從某種程度上來(lái)講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲(chǔ)、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對(duì),核心的數(shù)據(jù)分析邏輯并沒(méi)有實(shí)質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級(jí)以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。

(三)大數(shù)據(jù)問(wèn)題很大程度上來(lái)自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動(dòng),因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的商業(yè)信息的完整過(guò)程。這種強(qiáng)調(diào)應(yīng)用維度的觀點(diǎn)無(wú)可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過(guò),早在20世紀(jì)90年代中期,已故圖靈獎(jiǎng)得主格雷就已經(jīng)意識(shí)到,數(shù)據(jù)庫(kù)技術(shù)的下一個(gè)“大數(shù)據(jù)”挑戰(zhàn)將會(huì)來(lái)自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開了。

(四)數(shù)據(jù)科學(xué)范式對(duì)統(tǒng)計(jì)分析過(guò)程的各個(gè)環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個(gè)方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過(guò)設(shè)計(jì)的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,這種改變的直接影響是淡化了樣本的意義,同時(shí)增進(jìn)了數(shù)據(jù)的客觀性。事實(shí)上,在某些場(chǎng)合(比如社會(huì)網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲(chǔ)和分析也不再一味地依賴于高性能計(jì)算機(jī),而是轉(zhuǎn)向由中低端設(shè)備構(gòu)成的大規(guī)模群組并行處理,采用橫向擴(kuò)展的方式。

(五)目前關(guān)于大數(shù)據(jù)和數(shù)據(jù)科學(xué)的討論多集中于軟硬件架構(gòu)(IT視角)和商業(yè)領(lǐng)域(應(yīng)用視角),統(tǒng)計(jì)學(xué)的視角似乎被邊緣化了,比如覆蓋面、代表性等問(wèn)題。統(tǒng)計(jì)學(xué)以數(shù)據(jù)為研究對(duì)象,它對(duì)大數(shù)據(jù)分析的影響也是顯而易見(jiàn)的,特別是天然的或潛在的平衡或相關(guān)關(guān)系不僅約束了數(shù)據(jù)質(zhì)量,而且為統(tǒng)計(jì)推斷和預(yù)測(cè)開辟了新的視野。

作者:魏瑾瑞 蔣萍

數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵探討責(zé)任編輯:xchen1 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多