电竞比分网-中国电竞赛事及体育赛事平台

分享

大數(shù)據(jù)時(shí)代的社會(huì)治理與社會(huì)研究:現(xiàn)狀、問題與前景

 風(fēng)臨酒把2 2017-08-22



摘要

即使基于大數(shù)據(jù)的社會(huì)治理也必須高度重視社會(huì)研究。但當(dāng)前,市場(chǎng)的作用,加上社會(huì)科學(xué)界對(duì)大數(shù)據(jù)在科學(xué)上的價(jià)值存在疑慮,導(dǎo)致大數(shù)據(jù)研究迄今被應(yīng)用取向主導(dǎo),科學(xué)取向的大數(shù)據(jù)研究嚴(yán)重滯后。大數(shù)據(jù)兼有數(shù)據(jù)屬性、技術(shù)屬性和社會(huì)屬性,這決定了科學(xué)取向的大數(shù)據(jù)研究需要統(tǒng)計(jì)科學(xué)、計(jì)算機(jī)科學(xué)和社會(huì)科學(xué)的通力合作。但由于各自技術(shù)能力的局限,以及學(xué)科屬性、學(xué)科建制和市場(chǎng)選擇等方面的原因,三個(gè)學(xué)科的合作面臨較大困難。今后政府宜在尊重應(yīng)用與科學(xué)兩種取向合理分工的前提下,充分發(fā)揮調(diào)節(jié)作用,切實(shí)把科學(xué)取向的大數(shù)據(jù)研究提上日程,把大數(shù)據(jù)研究作為基礎(chǔ)性、戰(zhàn)略性項(xiàng)目來支持。

原文刊發(fā)于《大數(shù)據(jù)》2016年第2期。如有引用,請(qǐng)以《大數(shù)據(jù)》所刊為準(zhǔn)。本文此前曾在本公號(hào)分割成六篇刊發(fā)。為便于閱讀和掌握,這里恢復(fù)原來的完整面貌。



隨著大數(shù)據(jù)的興起,基于大數(shù)據(jù)的社會(huì)治理也成為熱門話題。社會(huì)各界和多個(gè)學(xué)科莫不躍躍欲試,與大數(shù)據(jù)社會(huì)治理有關(guān)的研究項(xiàng)目、會(huì)議和組織一時(shí)如雨后春筍般地涌現(xiàn)。然而,即使在大數(shù)據(jù)時(shí)代,社會(huì)治理也離不開社會(huì)研究。社會(huì)治理是操作,社會(huì)研究獲得的是原理,離開原理的操作不可能走得太遠(yuǎn)。大數(shù)據(jù)為揭示社會(huì)活動(dòng)的規(guī)律提供了新的可能性,如能取得突破,其科學(xué)和應(yīng)用價(jià)值不可估量。但目前進(jìn)展并不樂觀。正如杜克大學(xué)教授、TED創(chuàng)始人阿利里(DanAriely)所調(diào)侃的:“大數(shù)據(jù)就像青少年性行為,每個(gè)人都在說,實(shí)際都不知道怎么做;每個(gè)人都以為別人正在做,于是聲稱自己也在做?!边@句話形象地道出了大數(shù)據(jù)在大熱之下的大虛。然而,調(diào)侃歸調(diào)侃,真正需要反思的是:以大數(shù)據(jù)為基礎(chǔ)的社會(huì)研究是否必要和可能?目前存在什么問題?這些問題是怎樣形成的?又該如何突破?本文試圖回答這些看似離社會(huì)治理很遠(yuǎn),實(shí)則高度相關(guān)的問題。


一、大數(shù)據(jù)開發(fā)的兩種取向:應(yīng)用與科學(xué)



關(guān)于大數(shù)據(jù)研究,邁爾—舍恩伯格和庫克耶在《大數(shù)據(jù)時(shí)代》一書中的論述在國(guó)內(nèi)外流傳甚廣,影響極大。該書的核心觀點(diǎn)是,大數(shù)據(jù)的崛起將給人類的信息分析工作帶來三大轉(zhuǎn)變:一是不再依賴隨機(jī)采樣,二是不再追求精確性,三是不必尋找因果關(guān)系。在他們看來,代表性、精確性和因果性都是“小數(shù)據(jù)”時(shí)代的思維觀念。在“小數(shù)據(jù)”時(shí)代,由于生產(chǎn)力和技術(shù)水平的限制,獲取和分析數(shù)據(jù)的成本比較高,所以人們傾向于用盡可能小的數(shù)據(jù)去預(yù)測(cè)盡可能多的現(xiàn)象,代表性、精確性和因果性等追求應(yīng)運(yùn)而生。而在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的獲取是如此快捷和低成本,能夠獲取的數(shù)據(jù)又是如此全面,追求代表性、精確性和因果性也就沒有必要了。

這一觀點(diǎn)可以說全面顛覆了以往社會(huì)科學(xué)的主流觀念。相應(yīng)地,它也引發(fā)激烈的爭(zhēng)議。那么,究竟應(yīng)該怎樣看待這一觀點(diǎn)呢?仔細(xì)觀察會(huì)發(fā)現(xiàn),當(dāng)前大數(shù)據(jù)開發(fā)中同時(shí)存在兩種取向:一種是應(yīng)用取向,一種是科學(xué)取向。邁爾—舍恩伯格和庫克耶的觀點(diǎn)雖然以縱論大數(shù)據(jù)的面目出現(xiàn),實(shí)際只是其中應(yīng)用取向的表現(xiàn)。如下表,這兩種取向存在多個(gè)方面的區(qū)別,混淆兩種取向之間的關(guān)系將給大數(shù)據(jù)開發(fā)造成嚴(yán)重的不良后果。

表1 大數(shù)據(jù)開發(fā)中的兩種取向比較

取向

應(yīng)用取向

科學(xué)取向

價(jià)值期待

實(shí)用

原理

條件約束

時(shí)效

永恒

評(píng)價(jià)原則

完成

完美

工作標(biāo)準(zhǔn)

粗放

精確

工作內(nèi)容

相關(guān)

因果

應(yīng)用和科學(xué)這兩種取向的分野,從根本上源于它們對(duì)大數(shù)據(jù)分析的價(jià)值期待不同,即應(yīng)用取向追求實(shí)際功用,而科學(xué)取向追求一般原理。這是兩種既有聯(lián)系又有區(qū)別的追求。說有聯(lián)系,是因?yàn)樾枨篁?qū)動(dòng)創(chuàng)新,實(shí)際需要經(jīng)常成為促進(jìn)科學(xué)發(fā)展的強(qiáng)大動(dòng)力,而科學(xué)原理則有利于更好地滿足實(shí)際需要;說有區(qū)別,是因?yàn)槿祟悓?duì)實(shí)際效用的追求并不必然引起甚至可能妨礙對(duì)科學(xué)的追求,反過來,人類付出不菲代價(jià)求得的科學(xué)原理常常沒有什么即時(shí)的應(yīng)用,以致給時(shí)人造成一種不中用的感覺。這兩種取向之間的關(guān)系,就如同學(xué)界爭(zhēng)論已久的應(yīng)用研究與基礎(chǔ)研究之間的關(guān)系,其中的道理很顯明,不贅述。

由于追求的目標(biāo)不同,兩種取向面對(duì)的約束條件也就不同。應(yīng)用取向的大數(shù)據(jù)研究,由于重點(diǎn)是滿足實(shí)際需要,而需求又是時(shí)時(shí)變動(dòng)的,所以對(duì)時(shí)效性要求比較高;而科學(xué)取向的大數(shù)據(jù)研究志在獲得一般原理,而一般原理必須經(jīng)得起時(shí)間的檢驗(yàn),所以更重視永恒性,對(duì)時(shí)效性不那么敏感。

相應(yīng)地,在評(píng)價(jià)原則上,應(yīng)用講求結(jié)果導(dǎo)向,即完美與否是次要的,關(guān)鍵是在規(guī)定的時(shí)間內(nèi)完成規(guī)定的任務(wù);而科學(xué)則尊重探索,既然是探索,就允許試錯(cuò),所謂試錯(cuò),就是目標(biāo)、任務(wù)和行動(dòng)路線都可以根據(jù)新的發(fā)現(xiàn)不斷調(diào)整。在這個(gè)意義上,科學(xué)無所謂完成不完成,或者說永遠(yuǎn)不會(huì)有完成,完美才是決定性的。

基于不同的評(píng)價(jià)原則,兩種取向在工作標(biāo)準(zhǔn)上也存在顯著差異。應(yīng)用講求時(shí)效和績(jī)效,因此,只要邊際效益遞增即可接受,并不追求最優(yōu)解,對(duì)工作結(jié)果的容錯(cuò)率較高。體現(xiàn)在大數(shù)據(jù)分析上,就是寧可粗放一些,也不能錯(cuò)過時(shí)機(jī)。而科學(xué)基于完美原則,一定會(huì)不懈地追求最優(yōu)解,因此對(duì)工作結(jié)果的容錯(cuò)率比較低,對(duì)邊際改進(jìn)只能暫時(shí)接受。體現(xiàn)在大數(shù)據(jù)研究中,就是傾向于不惜代價(jià)地提高分析精度,不愿淺嘗輒止,“小富即安”。

最后,從工作內(nèi)容來看,揭示事物之間的因果關(guān)系是科學(xué)的本質(zhì)所在,止步于相關(guān)關(guān)系對(duì)科學(xué)來說是不可接受的。但從應(yīng)用的角度來看,效益才是第一位的,其他的都不重要。而效益的獲得并不總是依賴于對(duì)因果關(guān)系的掌握,如果了解相關(guān)關(guān)系即可帶來足夠高的效益,就沒有必要去探究背后的因果關(guān)系,尤其是當(dāng)這個(gè)過程的代價(jià)比較高的時(shí)候。就像大數(shù)據(jù)分析發(fā)現(xiàn),很多顧客在超市買嬰兒尿布時(shí)會(huì)連帶買啤酒,那么,將尿布和啤酒擺在一起,一定可以同時(shí)提高兩種商品的銷量。對(duì)商家來說,知道這一點(diǎn)就夠了,至于為什么顧客在買尿布的同時(shí)會(huì)買啤酒,大可不必追究。也就是說,應(yīng)用取向的大數(shù)據(jù)分析大可知其然而不知其所以然,但科學(xué)取向的大數(shù)據(jù)分析則必須揭示“所以然”。這是兩者追求的目標(biāo)不同所決定的。

綜上所述,科學(xué)和應(yīng)用對(duì)大數(shù)據(jù)分析有著不同的價(jià)值期待,進(jìn)而決定了它們工作的內(nèi)容、標(biāo)準(zhǔn)、約束條件以及對(duì)工作的評(píng)價(jià)原則也有所不同。顯然,人類既需要應(yīng)用,也需要科學(xué),因此,兩種取向的大數(shù)據(jù)分析都是人類所必需的,二者只是分工不同,并無高下之別。關(guān)鍵是怎樣處理兩種取向之間的關(guān)系,處理得好可以相得益彰,處理不好則會(huì)兩敗俱傷。

毋庸諱言,在大數(shù)據(jù)開發(fā)中,當(dāng)前占主導(dǎo)地位的是應(yīng)用取向。這樣一種局面的形成,與應(yīng)用取向的大數(shù)據(jù)研究相對(duì)來說難度更低、見效更快,同時(shí)更容易獲得市場(chǎng)和資本的青睞有關(guān)系。這無可厚非。但一種值得憂慮的傾向是,許多人因此而輕視甚至否定科學(xué)取向的大數(shù)據(jù)研究。邁爾—舍恩伯格和庫克耶的觀點(diǎn)是這一傾向的典型代表。該觀點(diǎn)的廣泛流行表明這一傾向的影響不容小覷。應(yīng)該說,這是一種短視而危險(xiǎn)的傾向。人類不能滿足于眼前的實(shí)用而放棄對(duì)科學(xué)的追求。且不說科學(xué)探索本身是一種樂趣,即使出于實(shí)用目的,放棄科學(xué),最終也會(huì)損害人類的福祉。就像中國(guó)古代,曾經(jīng)有著遙遙領(lǐng)先的實(shí)用技術(shù),最終卻因?yàn)闆]有發(fā)展出物理、化學(xué)等純粹的科學(xué)而落到西方國(guó)家后面。歷史的教訓(xùn)應(yīng)該記取。

中國(guó)當(dāng)前方興未艾的大數(shù)據(jù)社會(huì)治理,雖然涉及的是公共議題,主角是政府或公共事業(yè)組織,但從其思維和行為方式來看,也非常強(qiáng)調(diào)應(yīng)用,急于事功而對(duì)發(fā)現(xiàn)事實(shí)背后的一般規(guī)律缺乏興趣,應(yīng)用取向色彩非常濃厚,比商界有過之而無不及。這是一種危險(xiǎn)的傾向。沒有理論指導(dǎo)的實(shí)踐是盲目的,短期或許有一定效果,長(zhǎng)期來看一定不可持續(xù)。特別是,社會(huì)治理的對(duì)象是人,而人是有反思性的,即可以根據(jù)對(duì)未來的預(yù)測(cè)而調(diào)整當(dāng)下的行為。這就要求大數(shù)據(jù)研究不僅能夠?qū)崟r(shí)監(jiān)測(cè)社會(huì)當(dāng)下的狀態(tài),更要求其能夠在一定程度上預(yù)測(cè)社會(huì)未來的狀態(tài),以便未雨綢繆。這就要求從當(dāng)前的、已知的事實(shí)中去發(fā)現(xiàn)帶有一般性、普遍性的規(guī)律。而發(fā)現(xiàn)規(guī)律,正是科學(xué)的興趣和本職所在。因此,基于大數(shù)據(jù)的社會(huì)治理必須盡快扭轉(zhuǎn)應(yīng)用取向主導(dǎo)一切的局面,大力發(fā)展科學(xué)取向的大數(shù)據(jù)研究。


二、大而不精——關(guān)于大數(shù)據(jù)科學(xué)價(jià)值的疑慮

要發(fā)展科學(xué)取向的大數(shù)據(jù)研究,就必須重視社會(huì)科學(xué)的理論和方法?!吧鐣?huì)科學(xué)”(social sciences)指用現(xiàn)代科學(xué)的思維和方法去探究社會(huì)運(yùn)作規(guī)律的所有學(xué)科,是復(fù)數(shù)而非單數(shù),通常包含社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、政治學(xué),等等。也就是說,社會(huì)科學(xué)不等于社會(huì)學(xué)。不過,社會(huì)學(xué)有一個(gè)突出的特點(diǎn),對(duì)于考察大數(shù)據(jù)與社會(huì)研究之間的關(guān)系是極有意義的,即,它除了高度重視在研究中使用數(shù)據(jù)之外,還通過問卷調(diào)查、個(gè)案調(diào)查、參與觀察、社會(huì)實(shí)驗(yàn)等方法親自采集數(shù)據(jù)。在這個(gè)意義上,社會(huì)學(xué)可能是社會(huì)科學(xué)中對(duì)數(shù)據(jù)的環(huán)節(jié)涉獵最完整、體驗(yàn)最豐富的學(xué)科。因此,下面在討論大數(shù)據(jù)與社會(huì)研究之間的關(guān)系時(shí),會(huì)較多地援引社會(huì)學(xué)的觀點(diǎn)、方法和事例。

社會(huì)學(xué)素來重視數(shù)據(jù)的采集和使用,但面對(duì)如火如荼的大數(shù)據(jù)熱潮,卻似乎有點(diǎn)無動(dòng)于衷。截至目前,無論國(guó)內(nèi)還是國(guó)外,應(yīng)用大數(shù)據(jù)的社會(huì)學(xué)研究屈指可數(shù)。其中固然有大數(shù)據(jù)興起時(shí)間不長(zhǎng),進(jìn)入社會(huì)學(xué)研究尚有一個(gè)過程等客觀原因,也與社會(huì)學(xué)家對(duì)大數(shù)據(jù)的科學(xué)價(jià)值心存疑慮有關(guān)。這些疑慮集中在4個(gè)方面,即大數(shù)據(jù)不夠真、不夠全、不夠整齊、缺乏代表性。

不夠真,是指大數(shù)據(jù)中的許多數(shù)值并不是真實(shí)社會(huì)過程的表示,比如微博數(shù)據(jù)中存在的大量假賬號(hào)、假粉絲、“灌水帖”和虛假的個(gè)人注冊(cè)信息,等等。造成數(shù)據(jù)失真的情況很多,大體可以分為兩種:一種是由于技術(shù)失誤或不成熟而產(chǎn)生的錯(cuò)誤數(shù)據(jù),另一種則是出于某種目的,故意操縱而產(chǎn)生的虛假數(shù)據(jù)。相對(duì)而言,前一種數(shù)據(jù)失真還好處理,后一種數(shù)據(jù)失真則比較麻煩,因?yàn)樵诩夹g(shù)較量中并不能保證優(yōu)勢(shì)在研究者這一邊。任何數(shù)據(jù)的形成都存在失真的風(fēng)險(xiǎn)。但長(zhǎng)期以來,社會(huì)學(xué)對(duì)數(shù)據(jù)采集中的失真風(fēng)險(xiǎn)已經(jīng)形成一套較為成熟的控制體系,而大數(shù)據(jù)目前尚無與之相埒的辦法。這是社會(huì)學(xué)家對(duì)大數(shù)據(jù)缺乏信心的原因之一。

不夠全,是指大數(shù)據(jù)雖然大,實(shí)際上展現(xiàn)的社會(huì)信息十分有限,以致難以以之為基礎(chǔ)進(jìn)行復(fù)雜的、嚴(yán)密的邏輯演算。社會(huì)學(xué)本質(zhì)上是“群學(xué)”,在研究方法上特別注重分群比較。表現(xiàn)在統(tǒng)計(jì)上,就是傾向于根據(jù)個(gè)體的社會(huì)特征,比如性別、年齡、政治面貌、宗教信仰、教育程度、收入水平、職業(yè)、職級(jí)、所在行業(yè)等,將研究對(duì)象分成若干組,然后比較組內(nèi)差異和組間差異,并通過分析這些差異的原因和后果來揭示社會(huì)規(guī)律。這樣,研究對(duì)象所具有的社會(huì)特征就成為社會(huì)學(xué)推理中不可或缺的變量。然而,大數(shù)據(jù)常常只有總和層次(aggregate level)的變量,并且不是很多,個(gè)體層次(individual level)的變量更是嚴(yán)重缺乏,致使社會(huì)學(xué)的大量理論構(gòu)想難以通過大數(shù)據(jù)進(jìn)行檢驗(yàn)和修正。這是社會(huì)學(xué)家對(duì)大數(shù)據(jù)不感興趣的原因之二。

不夠齊,指大數(shù)據(jù)中變量的取值往往非常雜亂、發(fā)散而不夠收斂,甚至存在大量缺失。因此造成的一個(gè)后果是,當(dāng)進(jìn)行社會(huì)學(xué)所需要的分組比較時(shí),大量組別內(nèi)的個(gè)案數(shù)太少,以致統(tǒng)計(jì)結(jié)果不穩(wěn)定,甚至無法進(jìn)行比較。也就是說,大數(shù)據(jù)雖然體量巨大,從社會(huì)統(tǒng)計(jì)的角度來說卻有些中看不中用。傳統(tǒng)的社會(huì)學(xué)數(shù)據(jù)則不存在這個(gè)問題,因?yàn)檫@些數(shù)據(jù)中變量的賦值都是按照事先確定的統(tǒng)一標(biāo)準(zhǔn)進(jìn)行的,即使是開放式調(diào)查,也可以通過后編碼的方式實(shí)現(xiàn)取值的標(biāo)準(zhǔn)化。盡管從理論上說,大數(shù)據(jù)中各變量的取值也可以通過后編碼的方式實(shí)現(xiàn)標(biāo)準(zhǔn)化,但正如后文將要指出的,由于技術(shù)、組織等多方面原因,事實(shí)上實(shí)現(xiàn)起來非常困難。這是社會(huì)學(xué)家對(duì)大數(shù)據(jù)態(tài)度冷淡的原因之三。

最后,是質(zhì)疑大數(shù)據(jù)缺乏代表性。不少人認(rèn)為,大數(shù)據(jù)就是全樣本,樣本代表性的思維已經(jīng)過時(shí)?!洞髷?shù)據(jù)時(shí)代》一書就持這種觀點(diǎn)。這是一種錯(cuò)誤的看法。從科學(xué)的角度來說,研究網(wǎng)絡(luò)社會(huì)最終還是為了探索整個(gè)社會(huì)生活。特別是社會(huì)學(xué),揭示社會(huì)整體而非局部的運(yùn)行規(guī)律是其作為一門學(xué)科的核心關(guān)切。而社會(huì)治理,更是要面向全社會(huì),不能只面向網(wǎng)絡(luò)社會(huì)。很顯然,無論信息技術(shù)如何發(fā)達(dá),來自網(wǎng)絡(luò)社會(huì)的大數(shù)據(jù)永遠(yuǎn)不可能覆蓋整個(gè)社會(huì);技術(shù),再加上法律、倫理等諸多限制,使得電子數(shù)據(jù)永遠(yuǎn)只能展現(xiàn)社會(huì)生活的局部。換言之,從社會(huì)研究和治理的角度來看,大數(shù)據(jù)再大,也只是社會(huì)總體的一個(gè)樣本,不可能是“全樣本”。更何況,被大數(shù)據(jù)遺漏的那些部分往往并不是隨機(jī)偏差,而是系統(tǒng)性偏差。如果大數(shù)據(jù)的代表性問題得不到解決,探尋社會(huì)整體運(yùn)行規(guī)律,從而推動(dòng)全面善治的追求注定將遭到挫折。這無論對(duì)社會(huì)研究者,還是對(duì)社會(huì)治理者,都是不能接受的。大數(shù)據(jù)雖然以大著稱,但它與社會(huì)總體之間的關(guān)系仍有許多依靠大數(shù)據(jù)本身無法得到澄清的問題。這是社會(huì)學(xué)家對(duì)大數(shù)據(jù)保持疑慮的原因之四。

比如,互聯(lián)網(wǎng)上的各種意見,集合起來堪稱海量,是當(dāng)之無愧的大數(shù)據(jù)。但是,這些聲音與全體國(guó)民的意見之間是什么關(guān)系?從社會(huì)學(xué)的角度來說,這個(gè)問題非常重要。因?yàn)橐粋€(gè)社會(huì)中,有大量民眾是不想上網(wǎng)、不能上網(wǎng)或上不起網(wǎng)的,而這批人的意見恰恰是最容易被剝奪、被忽視的;如果簡(jiǎn)單地以網(wǎng)民意見代替國(guó)民意見,造成的偏差及其后果將是十分嚴(yán)重的。要避免這樣的偏差,就必須追問網(wǎng)民意見在多大程度上、在什么意義上代表著國(guó)民意見。不澄清數(shù)據(jù)的代表性,理論分析就難免陷入就事論事或過度推論的困境。

上述四個(gè)方面其實(shí)都是關(guān)于數(shù)據(jù)質(zhì)量的擔(dān)憂。一言以蔽之,就是大數(shù)據(jù)大而不精,難以滿足社會(huì)學(xué)推理對(duì)于變量的豐富程度、變量值的精確和標(biāo)準(zhǔn)化程度以及樣本代表性的要求。


三、大數(shù)據(jù)對(duì)社會(huì)研究的機(jī)遇與挑戰(zhàn)

不少學(xué)者因?yàn)榇髷?shù)據(jù)在真實(shí)、系統(tǒng)、整齊和代表性等方面存在問題而懷疑其科學(xué)價(jià)值,進(jìn)而對(duì)大數(shù)據(jù)研究持觀望態(tài)度。這些問題固然是事實(shí),但同時(shí)應(yīng)該看到,大數(shù)據(jù)也有相對(duì)于傳統(tǒng)數(shù)據(jù)的優(yōu)勢(shì)。其中最突出的一點(diǎn),是傳統(tǒng)數(shù)據(jù)基本是擬態(tài)數(shù)據(jù),而大數(shù)據(jù)基本是實(shí)態(tài)數(shù)據(jù)。所謂擬態(tài)數(shù)據(jù),是指數(shù)據(jù)并非社會(huì)行為之實(shí)時(shí)的、原始的印跡,而是研究者通過某種研究設(shè)計(jì)去觀測(cè)和捕捉的結(jié)果。由此造成以下3個(gè)問題。

第一,數(shù)據(jù)的形成高度依賴于研究設(shè)計(jì)。任何研究設(shè)計(jì)都是理論構(gòu)想的產(chǎn)物,很顯然,一個(gè)研究者無論多么追求客觀,理論構(gòu)想都不可避免地存在偏見(bias),由此造成所搜集的數(shù)據(jù)存在誤差,甚至是嚴(yán)重的、系統(tǒng)性的誤差。盡管經(jīng)驗(yàn)社會(huì)學(xué)力圖通過可重復(fù)的“假設(shè)—檢驗(yàn)”過程不斷消除理論構(gòu)想中的偏見,但仍然難以徹底擺脫自證預(yù)言陷阱,即基于某種研究假設(shè)而進(jìn)行的數(shù)據(jù)采集,可能把一些能夠證偽這些假設(shè)的數(shù)據(jù)排除在外,從而使這些假設(shè)永遠(yuǎn)不會(huì)被證偽。

第二,與此同時(shí),數(shù)據(jù)的形成也高度依賴于研究對(duì)象對(duì)研究設(shè)計(jì)的反應(yīng)。社會(huì)研究的對(duì)象是人,而人是有反思能力的,會(huì)主動(dòng)理解外部環(huán)境并相應(yīng)調(diào)整自己的行為。同樣地,在社會(huì)研究中,研究設(shè)計(jì)作為一種外部因素,也會(huì)影響研究對(duì)象的反應(yīng),從而導(dǎo)致測(cè)量不準(zhǔn)。比如,調(diào)查問卷中的問題設(shè)置可能對(duì)受訪者形成某種心理暗示,調(diào)查者的舉止客觀上會(huì)對(duì)受訪者形成某種壓力,從而誘導(dǎo)或迫使受訪者往特定方向作出反應(yīng)。如此等等。要而言之,在社會(huì)研究中,研究設(shè)計(jì)的介入會(huì)在不同程度上干擾研究者本來的狀態(tài),從而使通過該設(shè)計(jì)獲得的數(shù)據(jù)出現(xiàn)誤差。此即所謂“霍桑效應(yīng)”。

第三,傳統(tǒng)數(shù)據(jù)無論多么真實(shí)、系統(tǒng)、整齊和有代表性,相對(duì)于所觀測(cè)的社會(huì)行為,它永遠(yuǎn)都是事后構(gòu)擬的結(jié)果。即使是參與式觀察,數(shù)據(jù)的發(fā)生與行為的發(fā)生也不是同步的,同樣存在時(shí)差,只不過時(shí)差相對(duì)較小而已。至于抽樣調(diào)查等數(shù)據(jù)采集方式所造成的時(shí)差就更大了。假設(shè)研究者和被研究者都有前后兩種狀態(tài),在前的記為S1,在后的記為S2,時(shí)差的存在意味著S2會(huì)影響對(duì)S1信息的捕捉,從而造成數(shù)據(jù)誤差。比如,一個(gè)勞動(dòng)者在失業(yè)后回憶失業(yè)前的職業(yè)狀況時(shí),受失業(yè)后精神狀態(tài)的影響,可能夸大失業(yè)前的職業(yè)地位。

總之,在傳統(tǒng)的社會(huì)研究中,數(shù)據(jù)多是研究者基于一定的研究設(shè)計(jì)對(duì)社會(huì)行為進(jìn)行觀測(cè)的結(jié)果,獲得的只是擬態(tài)數(shù)據(jù),并且由于多種因素影響,擬態(tài)數(shù)據(jù)對(duì)社會(huì)現(xiàn)實(shí)的觀測(cè)總是存在誤差,甚至發(fā)生嚴(yán)重的系統(tǒng)性誤差。而大數(shù)據(jù)則不同,它是實(shí)態(tài)數(shù)據(jù)。這表現(xiàn)在,它或者是社會(huì)行動(dòng)者主動(dòng)生成的(比如微博),或者是自動(dòng)生成的(比如APP所記錄的活動(dòng)軌跡),總之是社會(huì)行為的實(shí)時(shí)印跡,而非事后的構(gòu)擬。這樣,首先是真正實(shí)現(xiàn)了數(shù)據(jù)與行為同步發(fā)生,避免了延時(shí)觀測(cè)或記錄所造成的誤差;其次,數(shù)據(jù)在形成過程中沒有研究設(shè)計(jì)的介入,避免了研究設(shè)計(jì)不周延以及霍桑效應(yīng)所造成的誤差。從這個(gè)意義上講,大數(shù)據(jù)對(duì)社會(huì)研究不啻是天賜良機(jī)。

然而,更重要的是,對(duì)社會(huì)研究來說,大數(shù)據(jù)不僅意味著機(jī)遇,而且是一個(gè)無法回避的挑戰(zhàn),因?yàn)榛ヂ?lián)網(wǎng)的出現(xiàn)已經(jīng)深刻地改變了社會(huì)生態(tài)。這表現(xiàn)在,隨著互聯(lián)網(wǎng)應(yīng)用的日益廣泛和深入,一方面是“社會(huì)的數(shù)字化”,即社會(huì)中各色人等有意無意留下的數(shù)據(jù)足跡越來越豐富,現(xiàn)實(shí)社會(huì)活動(dòng)于是越來越多地以數(shù)據(jù)的形式表現(xiàn)出來;另一方面是“數(shù)字的社會(huì)化”,即數(shù)據(jù)足跡及其結(jié)構(gòu)本身就成為社會(huì)結(jié)構(gòu)和過程的一個(gè)環(huán)節(jié),從而不斷塑造著新的社會(huì)秩序和關(guān)系。這兩個(gè)過程連綿不絕地相互作用,使數(shù)據(jù)不再是現(xiàn)實(shí)社會(huì)的虛擬和映射,而是徹底與社會(huì)融為一體。這樣,只要研究社會(huì),就必須研究數(shù)據(jù),因?yàn)閿?shù)據(jù)已經(jīng)不再是研究者可以自主選擇的研究方法和手段,而是研究者無法選擇,也無法回避的社會(huì)本體的一部分。

典型的例子是網(wǎng)購。消費(fèi)者在網(wǎng)購之后,部分人會(huì)留下網(wǎng)評(píng)。眾所周知,首先,這些網(wǎng)評(píng)沒有代表性,因?yàn)椴⒉皇撬邢M(fèi)者都會(huì)通過互聯(lián)網(wǎng)購物,即使通過互聯(lián)網(wǎng)購物,也不是所有人都會(huì)留下網(wǎng)評(píng);其次,網(wǎng)評(píng)所對(duì)應(yīng)的實(shí)質(zhì)含義并不清晰:同樣是給五星,有的是對(duì)商品質(zhì)量的評(píng)價(jià),有的是對(duì)快遞速度的評(píng)價(jià),有的是對(duì)商家態(tài)度的評(píng)價(jià),如此等等,不一而足——有些商家盡管已經(jīng)在設(shè)計(jì)上把上述幾個(gè)方面分開,但消費(fèi)者未必按照設(shè)計(jì)的板塊去回答;最后,有些網(wǎng)評(píng)甚至是商家或其他行動(dòng)者惡意操縱、造假的結(jié)果。但是,不管怎樣,后來的消費(fèi)者在購物時(shí)都會(huì)不同程度地參考這些網(wǎng)評(píng)。換言之,不管這些網(wǎng)評(píng)的真?zhèn)巍⒑x和代表性如何,它都會(huì)影響實(shí)際的購物行為;數(shù)據(jù)可能是虛假的、含糊的,但造成的結(jié)果卻是真實(shí)的、確定的。這樣一種現(xiàn)象意味著,網(wǎng)評(píng)作為大數(shù)據(jù)已經(jīng)與現(xiàn)實(shí)的消費(fèi)行為高度融合,只要研究消費(fèi)行為,就繞不開大數(shù)據(jù)。消費(fèi)會(huì)影響生產(chǎn),將來關(guān)于生產(chǎn)的研究恐怕也得研究這些網(wǎng)評(píng)數(shù)據(jù)。

現(xiàn)在流行一種觀點(diǎn),說互聯(lián)網(wǎng)世界是對(duì)現(xiàn)實(shí)世界的映射,是與現(xiàn)實(shí)社會(huì)相對(duì)應(yīng)的“虛擬社會(huì)”。這種觀點(diǎn)是不對(duì)的。它只看到了“社會(huì)的數(shù)字化”,而未看到同時(shí)存在著另一個(gè)方面——“數(shù)字的社會(huì)化”,更未看到這兩個(gè)方面已經(jīng)實(shí)現(xiàn)高度融合,即以互聯(lián)網(wǎng)為中介,社會(huì)不斷地演變?yōu)閿?shù)據(jù),數(shù)據(jù)又不斷地演變?yōu)樯鐣?huì)。這樣一種社會(huì)形態(tài)的出現(xiàn)決定了社會(huì)研究不面對(duì)大數(shù)據(jù)已經(jīng)不可能了;要面對(duì)大數(shù)據(jù)已無需討論,需要討論的只是怎樣面對(duì)大數(shù)據(jù)。


四、大數(shù)據(jù)的三重面相與不同學(xué)科的角色

大數(shù)據(jù)通常是指復(fù)雜程度大到超出常規(guī)處理能力的數(shù)據(jù)。大數(shù)據(jù)何以復(fù)雜?是因?yàn)樗哂袀鹘y(tǒng)數(shù)據(jù)所不具有的獨(dú)特特征。關(guān)于大數(shù)據(jù)的特征,分別有“3V”、“4V”和“5V”之說。所謂“3V”,是指大數(shù)據(jù)具有規(guī)模大(volume)、變化快(velocity)、結(jié)構(gòu)雜(variety)3個(gè)特點(diǎn)?!?V”則是再加一個(gè)特征——價(jià)值密度低(value),即相對(duì)于傳統(tǒng)數(shù)據(jù),同樣單位大數(shù)據(jù)中的價(jià)值含量要低得多。4V再加上veracity,即是“5V”。veracity意為“真實(shí)性”。關(guān)于“真實(shí)性”怎么理解,可能有歧義。據(jù)筆者理解,這里所謂的“真實(shí)性”,不是指大數(shù)據(jù)中沒有造假。由于技術(shù)、利益或道德原因,大數(shù)據(jù)中的錯(cuò)誤和操縱比比皆是。這里說的“真實(shí)性”,應(yīng)該指大數(shù)據(jù)是行動(dòng)者根據(jù)本人意圖而獨(dú)立形成的,不受研究者的干涉和干擾。即使其中有造假,也是行為人基于自己獨(dú)立的原因而造假,不是出于對(duì)某種研究設(shè)計(jì)的反應(yīng)而造假。換言之,數(shù)據(jù)的形成與研究者的意圖是相互獨(dú)立的,不存在相互反饋;相對(duì)于特定的研究意圖來說,大數(shù)據(jù)是真實(shí)的、無欺的。不難發(fā)現(xiàn),這個(gè)意義上的“真實(shí)性”,其實(shí)就是前面所指出的:大數(shù)據(jù)是實(shí)態(tài)數(shù)據(jù),而非擬態(tài)數(shù)據(jù)。

無論3V、4V,還是5V,都對(duì)大數(shù)據(jù)的特征做了很好的概括。但在這些概括之外,基于推動(dòng)學(xué)科合作的目的,本文更想指出大數(shù)據(jù)的三重屬性。

首先,如其名稱所示,大數(shù)據(jù)具有數(shù)據(jù)屬性,即它表現(xiàn)為一組有意義、有邏輯、可追尋、可計(jì)量的數(shù)值,可以用來揭示特定事物發(fā)生和演變的規(guī)律。這是任何數(shù)據(jù),不管大數(shù)據(jù),還是傳統(tǒng)數(shù)據(jù),都具有的屬性。只不過,傳統(tǒng)數(shù)據(jù)是圍繞特定意圖并根據(jù)集中設(shè)計(jì)而形成的,價(jià)值密度很高;而大數(shù)據(jù)是用戶自發(fā)形成的,比較散亂,價(jià)值密度低,追尋其意義和邏輯的工作也就更復(fù)雜。

其次,大數(shù)據(jù)具有強(qiáng)烈的技術(shù)屬性。一方面,大數(shù)據(jù)的產(chǎn)生和形成與以互聯(lián)網(wǎng)為代表的信息技術(shù)的迅猛發(fā)展有關(guān);另一方面,數(shù)據(jù)的收集和處理也離不開信息技術(shù)??梢哉f,正是信息技術(shù)的無遠(yuǎn)弗屆和強(qiáng)大處理能力,成就了大數(shù)據(jù)之大。離開信息技術(shù),不僅沒有物理意義上的大數(shù)據(jù),也不會(huì)有邏輯意義上的大數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)的搜集和處理也會(huì)運(yùn)用技術(shù),但這些技術(shù)多是模塊化、標(biāo)準(zhǔn)化和單機(jī)版的,易學(xué)易用,而大數(shù)據(jù)收集和處理所涉及的技術(shù)就要復(fù)雜得多。

第三,大數(shù)據(jù)具有強(qiáng)烈的社會(huì)屬性。大數(shù)據(jù)有兩個(gè)基本來源:一個(gè)是物理世界,比如對(duì)氣象、設(shè)施、機(jī)械等運(yùn)作狀況的監(jiān)測(cè)結(jié)果,另一個(gè)便是人類社會(huì)。社會(huì)研究主要涉及第二種來源的大數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)的形成是一個(gè)高度控制性的過程不同,大數(shù)據(jù)的形成是一個(gè)高度開放性的過程。原因在于,大數(shù)據(jù)是特定人群范圍在特定時(shí)間內(nèi)活動(dòng)的實(shí)時(shí)印跡和同步記錄。這意味著,民眾在數(shù)據(jù)形成中的角色由以往的被動(dòng)變成了主動(dòng)(包括自動(dòng))。在此過程中,參與的主體、過程和結(jié)果均不受研究者選擇和控制??梢哉f,正是民眾廣泛而主動(dòng)地參與數(shù)據(jù)形成,才成就了大數(shù)據(jù)之大。民眾在數(shù)據(jù)形成過程中的廣泛參與性,就是這里所說的大數(shù)據(jù)的社會(huì)屬性。


圖1  大數(shù)據(jù)的三重面相及相關(guān)學(xué)科的位置

既然大數(shù)據(jù)同時(shí)具有上述三重屬性,那么,如圖1所示,任何關(guān)于大數(shù)據(jù)的分析和應(yīng)用就必須同時(shí)處理這三重屬性,方能修得正果。而這,需要3個(gè)學(xué)科,即統(tǒng)計(jì)科學(xué)、計(jì)算機(jī)科學(xué)和社會(huì)科學(xué)的通力合作。其中,統(tǒng)計(jì)科學(xué)側(cè)重應(yīng)對(duì)數(shù)據(jù)屬性,計(jì)算機(jī)科學(xué)側(cè)重處理技術(shù)屬性,社會(huì)科學(xué)則側(cè)重探尋社會(huì)屬性。

那么,3個(gè)學(xué)科究竟應(yīng)該怎樣分工和合作呢?這要從大數(shù)據(jù)社會(huì)研究的過程說起?;诖髷?shù)據(jù)的社會(huì)研究大體可以劃分為3個(gè)階段:數(shù)據(jù)爬梳、數(shù)據(jù)分析和數(shù)據(jù)解釋。如圖2所示,隨著階段的變化,3個(gè)學(xué)科所扮演的角色及相互關(guān)系也會(huì)發(fā)生變化。


圖2  大數(shù)據(jù)分析的流程與學(xué)科分工

首先來看第一階段,數(shù)據(jù)爬梳。該階段的中心任務(wù)是實(shí)現(xiàn)數(shù)據(jù)形態(tài)從雜亂數(shù)據(jù)(messy data)向主題數(shù)據(jù)(thematic data),從物理數(shù)據(jù)(physical data)向邏輯數(shù)據(jù)(logic data)的轉(zhuǎn)變。具體來說是兩個(gè)內(nèi)容:一是數(shù)據(jù)的抽取,即根據(jù)特定的研究目的,從海量、多變而雜亂的數(shù)據(jù)足跡中把與研究主題相關(guān)的數(shù)據(jù)識(shí)別出來;二是根據(jù)分析的需要,把抽取出來的數(shù)據(jù)重新分類和賦值,實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化。巧婦難為無米之炊,只有形成符合相應(yīng)邏輯和格式要求的數(shù)據(jù),后續(xù)分析和解釋才有米下鍋。很顯然,計(jì)算機(jī)科學(xué)是完成該任務(wù)的主角。原因很簡(jiǎn)單:以大數(shù)據(jù)之海量、多變和雜亂,傳統(tǒng)的數(shù)據(jù)處理軟件根本無法應(yīng)付,必須運(yùn)用深度學(xué)習(xí)、社會(huì)計(jì)算、知識(shí)計(jì)算等專門技術(shù)。而這些技術(shù)之復(fù)雜和更新速度之快,不是其他學(xué)科的學(xué)者短時(shí)間能夠掌握的,即使能夠掌握也很不符合效率原則,因此必須有計(jì)算機(jī)科學(xué)的加入。

但這并不是說社會(huì)科學(xué)和統(tǒng)計(jì)學(xué)在這一階段不重要,事實(shí)正好相反。如上所述,數(shù)據(jù)爬梳的核心任務(wù)是實(shí)現(xiàn)雜亂數(shù)據(jù)向主題數(shù)據(jù),物理數(shù)據(jù)向邏輯數(shù)據(jù)的轉(zhuǎn)變。這意味著,主題和邏輯的確定非常關(guān)鍵,否則數(shù)據(jù)的抽取和結(jié)構(gòu)化就沒有方向。而主題和邏輯來自對(duì)社會(huì)的洞察。這就需要社會(huì)科學(xué)。邁爾—舍恩伯格等人在《大數(shù)據(jù)時(shí)代》一書中提倡“讓數(shù)據(jù)自己說話”。這個(gè)說法是站不住的。數(shù)據(jù)自己不可能說話,而只有經(jīng)過理論指導(dǎo)的爬梳之后才能說話。沒有爬梳,數(shù)據(jù)就是一團(tuán)亂麻,不能說話;即使說話,也是胡話。而要爬梳,就離不開理論的指導(dǎo)。

當(dāng)然,社會(huì)科學(xué)對(duì)主題和邏輯的確定并非一蹴而就,也需要不斷地探索。所謂探索,就是在理論構(gòu)想與數(shù)據(jù)事實(shí)之間來回折沖,最后選擇一個(gè)最佳方案。在此過程中,必然進(jìn)行一些初步的、探索性的統(tǒng)計(jì)分析,因此,在這一階段,統(tǒng)計(jì)科學(xué)的介入也是必不可少的。

數(shù)據(jù)爬梳一旦完成,就進(jìn)入第二個(gè)階段——數(shù)據(jù)分析,即挖掘數(shù)據(jù)之間的邏輯關(guān)系。這自然要用到統(tǒng)計(jì)工具,但模型的建立、參數(shù)的選擇等,都離不開社會(huì)理論的指導(dǎo)。這已經(jīng)是社會(huì)研究的常識(shí),不贅述。由于爬梳好的數(shù)據(jù)已經(jīng)按照一定主題和邏輯實(shí)現(xiàn)了結(jié)構(gòu)化,因此可以用傳統(tǒng)的社會(huì)統(tǒng)計(jì)軟件進(jìn)行分析,計(jì)算機(jī)學(xué)科相應(yīng)就退出了這一階段的工作。

接下來是第三個(gè)階段——數(shù)據(jù)解釋,即從當(dāng)下數(shù)據(jù)之間已知的邏輯關(guān)系出發(fā),去推斷更有一般性的規(guī)律,揭示更有一般性的原理。這個(gè)過程主要靠社會(huì)科學(xué)的理論思辨發(fā)揮作用,故連統(tǒng)計(jì)學(xué)也退出舞臺(tái)。

綜上所述,社會(huì)科學(xué)是唯一貫穿3個(gè)階段的學(xué)科。但這并不是說社會(huì)科學(xué)具有高于其他兩個(gè)學(xué)科的特殊地位,毋寧說,社會(huì)理論對(duì)于大數(shù)據(jù)研究非常重要。這一點(diǎn)是連邁爾—舍恩伯格和庫克耶都不否認(rèn)的。在《大數(shù)據(jù)時(shí)代》中,他們一方面聲稱要終結(jié)因果分析,以便“讓數(shù)據(jù)自己說話”,但另一方面也承認(rèn),因果關(guān)系的終結(jié)并不等于理論的終結(jié),“理論的終結(jié)”的說法是荒謬的:“大數(shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面?!?/p>

然而,當(dāng)前的大數(shù)據(jù)研究,特別是國(guó)內(nèi)的大數(shù)據(jù)研究,頗有些迷信“讓數(shù)據(jù)自己說話”,忽視甚至輕視社會(huì)理論的傾向較為嚴(yán)重。事實(shí)上,即使是持這種態(tài)度的研究,也不是完全沒有理論的指引,只是這些“理論”多屬非專業(yè)學(xué)者對(duì)社會(huì)的直覺,不夠系統(tǒng)和嚴(yán)密;或者不了解相關(guān)領(lǐng)域的理論進(jìn)展,偶然發(fā)現(xiàn)一個(gè)理論便如獲至寶,然后不顧適用條件地大用特用。社會(huì)科學(xué)的加入有利于改變這種憑感覺進(jìn)行數(shù)據(jù)爬梳的狀態(tài)。在大數(shù)據(jù)研究的草莽時(shí)代,憑直覺進(jìn)行相關(guān)研究也許能在短期內(nèi)取得一些甚至很“驚艷”的成績(jī),但從長(zhǎng)期來看是沒有競(jìng)爭(zhēng)力的,是不可持續(xù)的。畢竟大數(shù)據(jù)具有強(qiáng)烈的社會(huì)屬性,而術(shù)業(yè)有專攻,社會(huì)也不是憑直覺或所謂“智慧”就能參透的。

計(jì)算機(jī)科學(xué)家格雷曾在2007年提出大數(shù)據(jù)是“第四研究范式”的觀點(diǎn)。根據(jù)該觀點(diǎn),人類歷史上先后有實(shí)驗(yàn)、理論推演、電腦仿真3種科學(xué)發(fā)現(xiàn)范式。而現(xiàn)在人類能夠采集和處理的數(shù)據(jù)是如此之多和大,以致研究者能夠直接依靠現(xiàn)實(shí)的數(shù)據(jù)進(jìn)行科學(xué)探索和發(fā)現(xiàn)。這就是所謂第四范式,即“數(shù)據(jù)密集型的科學(xué)發(fā)現(xiàn)”(data-intensive scientific discovery)。該觀點(diǎn)雖然突出大數(shù)據(jù)在科學(xué)探索過程中的驅(qū)動(dòng)作用,但并不否認(rèn)理論的指導(dǎo)意義。第四范式的精髓并不是用大數(shù)據(jù)完全代替前三代范式中的實(shí)驗(yàn)、理論和模擬,而是在新的基礎(chǔ)上將實(shí)驗(yàn)、理論、模擬與數(shù)據(jù)統(tǒng)一起來。第四范式中的“格雷法則”正是理論發(fā)揮引領(lǐng)作用的體現(xiàn)。


五、當(dāng)前大數(shù)據(jù)社會(huì)研究面臨的主要難題

大數(shù)據(jù)的三重屬性決定了基于大數(shù)據(jù)的社會(huì)研究需要信息技術(shù)、統(tǒng)計(jì)分析和社會(huì)思想3種力量,從而需要計(jì)算機(jī)、統(tǒng)計(jì)學(xué)和社會(huì)學(xué)3個(gè)學(xué)科的緊密合作。然而,當(dāng)前大數(shù)據(jù)社會(huì)研究的主要障礙,正在于這3個(gè)學(xué)科之間的合作比較困難。事實(shí)上,在以前的小數(shù)據(jù)時(shí)代,這3個(gè)學(xué)科曾經(jīng)有過很好的合作。但大數(shù)據(jù)迥異于小數(shù)據(jù)的特征,使得原來的合作方式難以為繼,而新的合作方式又一時(shí)難以建立。造成這種局面的原因,可以概括為兩個(gè)方面:一是技術(shù)或曰生產(chǎn)力方面的,即每個(gè)學(xué)科在大數(shù)據(jù)時(shí)代都面臨新的困境,難以充分滿足彼此的要求;二是體制或曰生產(chǎn)關(guān)系方面的,即正是在這種情況下,不同學(xué)科之間的關(guān)系需要加緊調(diào)整和磨合,但由于學(xué)科屬性、學(xué)科建制和市場(chǎng)選擇等原因,調(diào)整和磨合的過程很艱難。

在歷史上,計(jì)算機(jī)、統(tǒng)計(jì)學(xué)和社會(huì)學(xué)這3個(gè)學(xué)科一直有合作。相對(duì)來說,社會(huì)學(xué)與統(tǒng)計(jì)學(xué)的合作更緊密,社會(huì)學(xué)借助新的統(tǒng)計(jì)技術(shù)和模型得以迅速發(fā)展,而社會(huì)學(xué)問題的挑戰(zhàn)也是推動(dòng)統(tǒng)計(jì)學(xué)不斷發(fā)展的重要?jiǎng)恿Α蓚€(gè)學(xué)科的緊密結(jié)合,使社會(huì)統(tǒng)計(jì)學(xué)成為一門獨(dú)立的課程和研究領(lǐng)域。而計(jì)算機(jī)技術(shù)也為社會(huì)統(tǒng)計(jì)學(xué)的形成和發(fā)展貢獻(xiàn)良多,社會(huì)統(tǒng)計(jì)的軟件化和SPSS、SAS、STATA等著名統(tǒng)計(jì)軟件的推出,更是使社會(huì)統(tǒng)計(jì)作為一種理論和方法前所未有的繁榮。然而,大數(shù)據(jù)的出現(xiàn)對(duì)每個(gè)學(xué)科及其相互關(guān)系都提出了挑戰(zhàn)。

首先,對(duì)社會(huì)學(xué)來說,以前雖然也在不斷地收集和分析數(shù)據(jù),但數(shù)據(jù)爬梳的任務(wù)很少。即使有,也主要是清除其中的噪音(比如數(shù)據(jù)中的作偽和邏輯矛盾)。而且由于這些數(shù)據(jù)都是根據(jù)一定研究設(shè)計(jì)而收集的,量小、集中、形態(tài)穩(wěn)定并且結(jié)構(gòu)化,因此,即使噪音的清除,也可以用標(biāo)準(zhǔn)化、模塊化的統(tǒng)計(jì)軟件進(jìn)行,社會(huì)學(xué)家只要在既有的統(tǒng)計(jì)軟件平臺(tái)上編程即可實(shí)現(xiàn)。而到了大數(shù)據(jù)時(shí)代,數(shù)據(jù)的基本特征是海量而且價(jià)值密度低,更嚴(yán)重的是多源、多變、異構(gòu)、雜亂,數(shù)據(jù)爬梳的重點(diǎn)也隨之從噪音的清除轉(zhuǎn)向了數(shù)據(jù)的識(shí)別(抽?。┖徒Y(jié)構(gòu)化。也就是說,大數(shù)據(jù)是高度非標(biāo)準(zhǔn)化、非結(jié)構(gòu)化的,標(biāo)準(zhǔn)化、模塊化的統(tǒng)計(jì)軟件顯然不能勝任。由于大數(shù)據(jù)的上述特征,甚至連噪音的清除也難以通過統(tǒng)計(jì)軟件完成。

統(tǒng)計(jì)軟件是標(biāo)準(zhǔn)化、模塊化的,相對(duì)來說易學(xué)、易用,社會(huì)學(xué)家經(jīng)過努力還能夠掌握和運(yùn)用。而現(xiàn)在大數(shù)據(jù)的處理,常常要求根據(jù)研究對(duì)象的特征從頭構(gòu)造或調(diào)整算法甚至處理系統(tǒng),這就超出了一般社會(huì)學(xué)家的能力。社會(huì)學(xué)家即使努力為之,也不符合效率原則??傊?,大數(shù)據(jù)使社會(huì)學(xué)對(duì)計(jì)算機(jī)科學(xué)的依賴程度大大加深。

在大數(shù)據(jù)出現(xiàn)之前,社會(huì)學(xué)也有通過編碼把定性數(shù)據(jù)轉(zhuǎn)變成可用于統(tǒng)計(jì)分析的計(jì)量數(shù)據(jù)的做法。這個(gè)工作在基本原理上與大數(shù)據(jù)爬梳相似,即反復(fù)聚類。其工作過程大致如下:初步理論構(gòu)想è通覽原始資料è初步分類并編碼è通覽分類結(jié)果è調(diào)整理論構(gòu)想è再讀原始資料è調(diào)整分類并編碼è……如此循環(huán)往復(fù),直到分類和編碼達(dá)到理論要求為止。這樣一個(gè)工作過程,現(xiàn)在雖然有Nvivo等軟件的幫助而省力很多,但仍然無法應(yīng)付大數(shù)據(jù)。除了大數(shù)據(jù)本身規(guī)模巨大、結(jié)構(gòu)復(fù)雜等原因之外,更重要的是,以往分類和編碼的對(duì)象是確定的,而大數(shù)據(jù)的一個(gè)重要特征是頻繁變動(dòng),這意味著前后兩次分類所面對(duì)的對(duì)象很可能不同(比如試圖對(duì)網(wǎng)絡(luò)公知進(jìn)行分類,前后兩天抓取的網(wǎng)絡(luò)公知在人數(shù)和構(gòu)成上很可能不同),從而使前一次分類對(duì)后續(xù)的分類調(diào)整失去參考意義,通過反復(fù)聚類實(shí)現(xiàn)合理分類編碼的期望隨之落空。要適應(yīng)大數(shù)據(jù)多變的特征,必須依賴計(jì)算機(jī)技術(shù)。

然而,可能讓社會(huì)學(xué)失望的是,計(jì)算機(jī)對(duì)大數(shù)據(jù)的處理也不是手到擒來。其挑戰(zhàn)主要在3個(gè)方面:一是數(shù)據(jù)本身的復(fù)雜性,即數(shù)據(jù)的類型和模式多樣、關(guān)聯(lián)關(guān)系繁雜、質(zhì)量良莠不齊,使得數(shù)據(jù)的感知、表達(dá)、理解和計(jì)算等多個(gè)環(huán)節(jié)都面臨不少難題;二是計(jì)算的復(fù)雜性,即大數(shù)據(jù)多源、異構(gòu)、量大、多變等特征使傳統(tǒng)的機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)挖掘等計(jì)算方法不能有效支持大數(shù)據(jù)的處理、分析和計(jì)算;三是系統(tǒng)的復(fù)雜性,目前的計(jì)算硬件和軟件系統(tǒng)在系統(tǒng)架構(gòu)、計(jì)算框架和處理方法上都還難以滿足大數(shù)據(jù)處理的需要。由于這些原因,目前計(jì)算機(jī)科學(xué)在數(shù)據(jù)爬梳技術(shù)的精度、效率、成本和易用性等方面,都難以滿足社會(huì)研究的需要。當(dāng)然,除了這些技術(shù)限制之外,還有倫理、法律等方面的限制。

其次,在社會(huì)學(xué)更加依賴計(jì)算機(jī)的同時(shí),計(jì)算機(jī)科學(xué)也更加依賴社會(huì)學(xué)。原因在于,計(jì)算機(jī)科學(xué)雖然在信息處理方面技術(shù)非常強(qiáng)悍,但與以往不同的是,大數(shù)據(jù)是人類社會(huì)活動(dòng)的產(chǎn)物,具有強(qiáng)烈而且不斷變動(dòng)的社會(huì)屬性。離開對(duì)這些社會(huì)屬性的理解,再好的算法和系統(tǒng)都不知道派什么用場(chǎng),怎么派用場(chǎng)。如前所述,一些計(jì)算機(jī)學(xué)者憑著對(duì)社會(huì)的直覺也可能做出不錯(cuò)的大數(shù)據(jù)研究,但這并非長(zhǎng)久之計(jì)。就此而言,計(jì)算機(jī)科學(xué)對(duì)社會(huì)學(xué)的依賴也在加深。然而,社會(huì)學(xué)的思想和理論通常比較晦澀、飄忽,讓計(jì)算機(jī)學(xué)者難以在這些思想理論與計(jì)算機(jī)的工作對(duì)象之間建立起映射關(guān)系。社會(huì)學(xué)如何將抽象的思想和理論變成計(jì)算機(jī)學(xué)者可以理解、可以操作的任務(wù),還有很長(zhǎng)的路要走。

第三,數(shù)據(jù)爬梳也需要統(tǒng)計(jì)學(xué)的介入,但統(tǒng)計(jì)學(xué)面對(duì)大數(shù)據(jù)同樣有自己的難題。數(shù)據(jù)爬梳并不是一個(gè)純粹的技術(shù)過程,而是一個(gè)數(shù)據(jù)與思想反復(fù)碰撞的過程。在此過程中,需要不斷對(duì)爬梳出來的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,然后相應(yīng)調(diào)整理論方案或技術(shù)路線。大數(shù)據(jù)再大,終歸也是一種數(shù)據(jù),必然適用統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)對(duì)數(shù)據(jù)爬梳也很重要。然而,傳統(tǒng)統(tǒng)計(jì)學(xué)是基于小數(shù)據(jù)時(shí)代的條件而發(fā)展起來,無論理論還是方法都是以樣本為基礎(chǔ)展開的。但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的屬性發(fā)生了很多變化,從而對(duì)統(tǒng)計(jì)學(xué)的傳統(tǒng)理論和方法構(gòu)成嚴(yán)峻挑戰(zhàn)。比如,大數(shù)據(jù)中不同個(gè)案的發(fā)生經(jīng)常不是獨(dú)立隨機(jī)事件,而是相互之間存在著強(qiáng)烈的正反饋或負(fù)反饋(典型表現(xiàn)是圍繞特定事件而展開的公共討論);大數(shù)據(jù)獨(dú)特的分布特征(比如重尾分布)會(huì)導(dǎo)致方差、標(biāo)準(zhǔn)差等標(biāo)準(zhǔn)方法變得無效,分布理論、大數(shù)定律和中心極限定理的應(yīng)用也會(huì)受到限制[5]。如此等等。

總而言之,大數(shù)據(jù)對(duì)3個(gè)學(xué)科既有的研究范式都提出了新的挑戰(zhàn)。這些挑戰(zhàn),使它們一方面更加相互依賴,但另一方面也使它們比以前更加難以滿足彼此的需要,以致難以走到一起,或者不歡而散。這就更需要3個(gè)學(xué)科求同化異,以更大的耐心和毅力推進(jìn)合作。

但不幸的是,合作的推進(jìn)又面臨學(xué)科屬性、學(xué)科建制和學(xué)術(shù)市場(chǎng)等方面的障礙。

首先,因?qū)W科屬性不同,3個(gè)學(xué)科在研究活動(dòng)的組織方式上存在重大差別,從而影響相互之間的合作。在3個(gè)學(xué)科中,相對(duì)而言,計(jì)算機(jī)學(xué)科的研究活動(dòng)具有更強(qiáng)的工程性質(zhì)。這表現(xiàn)在,它可以將研究目標(biāo)分解為若干邊界比較清晰的任務(wù),然后交由不同的研究人員和組織去實(shí)施,實(shí)現(xiàn)分進(jìn)合擊。相應(yīng)地,其研究活動(dòng)通常采用團(tuán)隊(duì)作戰(zhàn)的實(shí)驗(yàn)室體制。同樣由于其活動(dòng)的工程性質(zhì),計(jì)算機(jī)學(xué)科的研究進(jìn)度相對(duì)可控制、可預(yù)測(cè)。而統(tǒng)計(jì)學(xué),尤其是社會(huì)學(xué)的研究活動(dòng)則具有鮮明的思想屬性。思想工作是很難分解的,難以想像讓甲思考A部分,乙思考B部分,然后組合起來,就形成一個(gè)思想了。因此社會(huì)研究常常以個(gè)體的形式進(jìn)行,很難采取團(tuán)隊(duì)作戰(zhàn)的方式。與此同時(shí),即使個(gè)人的思考,也比較依賴靈感,進(jìn)度很難控制和預(yù)測(cè)。學(xué)科屬性的差異給學(xué)科之間的合作造成一定困難。

舉例言之。社會(huì)學(xué)家經(jīng)常在拿到數(shù)據(jù)后一時(shí)在理論上沒有思路,于是陷入沉思,很長(zhǎng)時(shí)間沒有下文。也許突然有一天,理論靈感來了,他就急不可耐地想探測(cè)一下數(shù)據(jù),看看新的思路是否可行,如果不可行又該如何調(diào)整。如此反復(fù)。正因?yàn)槿绱?,社?huì)學(xué)家的研究工作常常顯得大起大落,節(jié)奏很不穩(wěn)定。這雖然是社會(huì)學(xué)研究活動(dòng)的固有特征,但確實(shí)讓其他學(xué)科很難配合,甚至引起一些誤解,認(rèn)為社會(huì)學(xué)家“不靠譜”。

其次,還有學(xué)科建制上的障礙。按當(dāng)前體制,這3個(gè)學(xué)科往往分屬不同的研究單位。組織歸屬不同,科研議程的設(shè)置、資源的配備、績(jī)效的考核也就不同。在以前,學(xué)科之間在建制上的分割并不構(gòu)成學(xué)科合作的嚴(yán)重障礙。因?yàn)樵谀莻€(gè)時(shí)候,學(xué)科之間的結(jié)合通常是知識(shí)的結(jié)合,而不需要組織建制的結(jié)合;只要有那么一兩個(gè)學(xué)術(shù)精英善于結(jié)合不同學(xué)科的知識(shí),創(chuàng)造出若干標(biāo)準(zhǔn)化的知識(shí)模板或研究范式,其他學(xué)者只管遵循和借鑒就可以了。在此過程中,學(xué)科之間主要是在知識(shí)上打交道,無需在組織和人員上打交道,即使打交道,也無需很多?,F(xiàn)在則不然。大數(shù)據(jù)的基本特征恰恰是高度復(fù)雜,亦即高度非標(biāo)準(zhǔn)化。這一方面意味著,學(xué)科合作已經(jīng)難以通過標(biāo)準(zhǔn)化的知識(shí)模板進(jìn)行,而常常需要圍繞特定問題“一事一議”地、面對(duì)面地碰撞和交流,從而需要把學(xué)科合作從知識(shí)層面延伸到組織和人事層面;另一方面也意味著,學(xué)科合作涉及的知識(shí)越來越多,越來越細(xì),越來越復(fù)雜,相應(yīng)地,標(biāo)準(zhǔn)化的知識(shí)模板也越來越難以形成。這樣,怎樣打破學(xué)科壁壘,如何通過組織和人員的融合來實(shí)現(xiàn)學(xué)科之間的融合,就成為一個(gè)重大問題,目前還沒有找到有效的破解之道。

最后是市場(chǎng)選擇。在大數(shù)據(jù)開發(fā)的兩種取向中,社會(huì)研究更偏于科學(xué)取向,產(chǎn)品質(zhì)量要求高,生產(chǎn)周期長(zhǎng),生產(chǎn)成本高,短期內(nèi)卻難以見到效益,自然在市場(chǎng)上不討喜,因而在研究資源的獲取上受到很大限制。而3個(gè)學(xué)科中的統(tǒng)計(jì)學(xué),特別是計(jì)算機(jī)科學(xué),其工作更容易被市場(chǎng)接受,更容易走應(yīng)用路線。這樣一種局面,對(duì)3個(gè)學(xué)科能否親密合作,把一場(chǎng)注定艱辛的“愛情長(zhǎng)跑”堅(jiān)持到底是一個(gè)嚴(yán)峻的考驗(yàn)。從目前來看,形勢(shì)并不樂觀。


六、結(jié)論與展望

隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的迅速發(fā)展以及國(guó)家對(duì)大數(shù)據(jù)社會(huì)治理的力推,大數(shù)據(jù)研究也越來越熱。當(dāng)前大數(shù)據(jù)開發(fā)中存在著科學(xué)和應(yīng)用兩種取向,且呈應(yīng)用取向完全壓倒科學(xué)取向之勢(shì)。這不利于大數(shù)據(jù)研究的可持續(xù)發(fā)展。大數(shù)據(jù)兼有技術(shù)、數(shù)據(jù)、社會(huì)等三重屬性,要推進(jìn)科學(xué)取向的大數(shù)據(jù)研究,就必須有機(jī)地結(jié)合信息技術(shù)、統(tǒng)計(jì)和社會(huì)思想3種力量。這內(nèi)在地要求計(jì)算機(jī)、統(tǒng)計(jì)學(xué)和社會(huì)科學(xué)3個(gè)學(xué)科摒棄門戶之見,實(shí)現(xiàn)通力合作。大數(shù)據(jù)研究繞不過社會(huì)科學(xué),社會(huì)科學(xué)也繞不過大數(shù)據(jù)。在當(dāng)前,由于各自技術(shù)能力的局限,學(xué)科屬性的差異、學(xué)科體制的障礙、市場(chǎng)選擇的偏向,3個(gè)學(xué)科之間的合作還比較困難。

這導(dǎo)致目前完整意義上的大數(shù)據(jù)研究并不多。從社會(huì)科學(xué)方面來看,多是利用一些已經(jīng)比較結(jié)構(gòu)化的大數(shù)據(jù)展開研究,真正自己從頭采集和爬梳數(shù)據(jù)的研究非常少。由于這些數(shù)據(jù)的變量比較少、變量的取值和層次以及樣本的代表性等,不盡符合社會(huì)學(xué)命題的要求,以致能夠進(jìn)行的社會(huì)學(xué)理論推演十分有限,甚至只能做一些粗淺的、宏觀層面的描述統(tǒng)計(jì)。而計(jì)算機(jī)科學(xué)雖然在數(shù)據(jù)爬梳方面做了很多工作,但在研究主題的凝練和對(duì)社會(huì)機(jī)制的理解方面都比較薄弱,即使拉澤爾等人著名的《計(jì)算社會(huì)科學(xué)》一文亦不免此病。這是缺乏社會(huì)理論引領(lǐng)的結(jié)果。總的來看,要真正做出既有思想深度,又有堅(jiān)實(shí)數(shù)據(jù)支撐的大數(shù)據(jù)研究,還任重而道遠(yuǎn)。

現(xiàn)代社會(huì)是一個(gè)復(fù)雜而多變的巨系統(tǒng),社會(huì)治理不能憑感覺率性而為。順應(yīng)社會(huì)和技術(shù)形勢(shì)的變化,在社會(huì)治理過程中主動(dòng)利用大數(shù)據(jù),是社會(huì)治理方略的重大進(jìn)步。與自然世界的運(yùn)作一樣,社會(huì)運(yùn)作也有自己的規(guī)律。大數(shù)據(jù)雖然看上去龐大而“全面”,但其中蘊(yùn)含的社會(huì)規(guī)律并不會(huì)自然顯露,同樣需要經(jīng)過艱苦的科學(xué)探索。這就需要積極推進(jìn)科學(xué)取向的大數(shù)據(jù)社會(huì)研究。離開堅(jiān)實(shí)的社會(huì)研究,所謂以大數(shù)據(jù)為基礎(chǔ)的社會(huì)治理只會(huì)是一枕黃粱。

當(dāng)前,在大數(shù)據(jù)研究領(lǐng)域,包括對(duì)大數(shù)據(jù)社會(huì)治理的研究,廣泛存在著急功近利的傾向和對(duì)應(yīng)用取向的迷戀。這要求政府應(yīng)在尊重應(yīng)用與科學(xué)兩種取向合理分工的前提下,充分發(fā)揮調(diào)節(jié)作用,把科學(xué)取向的大數(shù)據(jù)研究提上重要日程,同時(shí)加大資源投入,將大數(shù)據(jù)研究作為一個(gè)基礎(chǔ)性和戰(zhàn)略性項(xiàng)目來支持。


?致謝:本文系中國(guó)人民大學(xué)科研基金項(xiàng)目“當(dāng)前中國(guó)網(wǎng)絡(luò)群體性事件的形成及治理研究”(No.13XNL005)的階段性成果。感謝杜小勇、周雪光、張尹霰、莊家熾以及2016年1月16日中國(guó)人民國(guó)家發(fā)展與戰(zhàn)略研究院“大數(shù)據(jù)與社會(huì)治理”會(huì)議上各位同仁的意見和建議。


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多