本文節(jié)選自《中國(guó)科學(xué)院院刊》2020年第12期文章《數(shù)據(jù)科學(xué)與計(jì)算智能:內(nèi)涵、范式與機(jī)遇》 1 引領(lǐng)數(shù)據(jù)科學(xué)與計(jì)算智能研究的應(yīng)用 作為一門實(shí)踐性強(qiáng)的學(xué)科,數(shù)據(jù)科學(xué)的發(fā)展離不開實(shí)際需求牽引與技術(shù)應(yīng)用驅(qū)動(dòng)。 隨著感知、計(jì)算、通信、控制等技術(shù)的發(fā)展及綜合集成應(yīng)用,“人-機(jī)-物”三元世界高度融合,在線形成了一個(gè)網(wǎng)絡(luò)化的大數(shù)據(jù)系統(tǒng),其內(nèi)部包含了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)連接而成的各類數(shù)據(jù)。這是一個(gè)高度復(fù)雜、強(qiáng)不確定性、持續(xù)動(dòng)態(tài)演化的復(fù)雜系統(tǒng),是“系統(tǒng)的系統(tǒng)”。它既是智慧城市、智能制造、健康醫(yī)療等各個(gè)領(lǐng)域應(yīng)用的空間載體,也為國(guó)家安全、社會(huì)治理、數(shù)字經(jīng)濟(jì)等領(lǐng)域的科學(xué)化、智能化發(fā)展提供了重要的數(shù)據(jù)資源供給。 前文已提及,這個(gè)現(xiàn)實(shí)存在的大數(shù)據(jù)系統(tǒng),除了具備高度復(fù)雜性、強(qiáng)不確定性等特性,人在回路也是其顯著特征。 針對(duì)這一現(xiàn)實(shí)系統(tǒng)的研究與應(yīng)用,將有可能為數(shù)據(jù)科學(xué)的理論與技術(shù)發(fā)展帶來機(jī)遇。 針對(duì)這一復(fù)雜系統(tǒng)的典型場(chǎng)景展開研究,不僅有利于揭示數(shù)據(jù)的基本規(guī)律,也有可能因此而牽引未來新型智能范式的研究。其典型的應(yīng)用場(chǎng)景有如下?4?種。 1.1 基于非確定數(shù)據(jù)的社會(huì)認(rèn)知 在社會(huì)系統(tǒng)中,我們搜集到的數(shù)據(jù)通常與真實(shí)的情況存在一定的偏差,大量的虛假內(nèi)容、非確定性內(nèi)容混雜在這些數(shù)據(jù)當(dāng)中。如何能基于這樣不完備的、非確定的大數(shù)據(jù)進(jìn)行社會(huì)認(rèn)知是一個(gè)非常有挑戰(zhàn)的問題。 社會(huì)認(rèn)知具體包括真假判定、社會(huì)心理計(jì)算、輿情判定與導(dǎo)向等。而面向非確定數(shù)據(jù)的社會(huì)認(rèn)知,其中一大關(guān)鍵在于如何對(duì)大量復(fù)雜的非確定數(shù)據(jù)進(jìn)行假設(shè)建模,如何建立復(fù)雜社會(huì)系統(tǒng)中個(gè)人行為與群體社會(huì)認(rèn)知之間的關(guān)聯(lián)。演化智能、復(fù)雜系統(tǒng)仿真與模擬也許是解決這一問題的突破口。 1.2 基于開放環(huán)境的群智決策 互聯(lián)網(wǎng)極大地方便了信息、知識(shí)和智慧的互聯(lián)互通。在互聯(lián)網(wǎng)中,已經(jīng)有許多復(fù)雜問題可以通過群智決策的方式加以有效解決,如眾包計(jì)算、人本計(jì)算等。
考慮到智能系統(tǒng)的演化及復(fù)雜系統(tǒng)的仿真與模擬,對(duì)單個(gè)智能體及智能體之間復(fù)雜交互進(jìn)行建模,也許是未來復(fù)雜問題求解的一個(gè)可能方向。 1.3 人機(jī)融合的智慧醫(yī)療 智慧醫(yī)療是醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、公共衛(wèi)生學(xué)等學(xué)科相互交叉的新興領(lǐng)域。隨著信息技術(shù)的普及發(fā)展,醫(yī)療領(lǐng)域產(chǎn)生了大量的數(shù)據(jù)(如電子病歷、PB?級(jí)基因數(shù)據(jù)等),也催生了諸多與智慧醫(yī)療相關(guān)的應(yīng)用需求。
需要注意的是,智慧醫(yī)療需要強(qiáng)大的可靠性,但目前的人工智能還難以替代醫(yī)生。一種比較好的提高思路是,考慮人(醫(yī)生)在回路的新型智能范式;通過這樣人機(jī)混合的方式,使得機(jī)器的智能與人的智能相輔相成,使醫(yī)療從傳統(tǒng)的“個(gè)體經(jīng)驗(yàn)決策”轉(zhuǎn)向“智能輔助決策”的新模式,進(jìn)而為醫(yī)療系統(tǒng)的革新帶來新的可能。 1.4 重大公共安全問題與社會(huì)治理 重大公共安全問題指對(duì)社會(huì)和公民所需的穩(wěn)定環(huán)境有嚴(yán)重影響的重大問題。公共安全問題涉及多方復(fù)雜因素,包括人類社會(huì)、自然環(huán)境、突發(fā)事件等,是典型的人在回路的復(fù)雜應(yīng)用問題,急需應(yīng)用大數(shù)據(jù)技術(shù)手段進(jìn)行預(yù)測(cè)、預(yù)警和防控。以新冠肺炎疫情為例,大數(shù)據(jù)分析技術(shù)手段和人機(jī)混合智能,為疫情走勢(shì)預(yù)測(cè)、傳播鏈排查、謠言傳播溯源和意圖研判等人在回路的復(fù)雜問題提供了有力幫助,支撐疫情精準(zhǔn)防控。 2 數(shù)據(jù)科學(xué)與計(jì)算智能的關(guān)鍵問題 數(shù)據(jù)科學(xué)的發(fā)展,將幫助我們厘清數(shù)據(jù)科學(xué)的理論邊界,為計(jì)算智能的持續(xù)發(fā)展提供新的可能與機(jī)遇;與此同時(shí),計(jì)算智能的發(fā)展與新型智能范式的興起,也將為大數(shù)據(jù)在各行業(yè)和各領(lǐng)域的應(yīng)用提供新的契機(jī)。 在本節(jié),我們從數(shù)據(jù)科學(xué)的基本內(nèi)涵與邊界、新型智能范式與智能能力測(cè)試、數(shù)據(jù)評(píng)價(jià)體系與共享利用?3?個(gè)方面出發(fā),基于香山科學(xué)會(huì)議第?667?次學(xué)術(shù)討論會(huì)與會(huì)專家的討論,提煉形成數(shù)據(jù)科學(xué)與計(jì)算智能領(lǐng)域的七大關(guān)鍵問題,以期得到相關(guān)領(lǐng)域研究者的共同關(guān)注,從而把握時(shí)代的機(jī)遇,推動(dòng)數(shù)據(jù)科學(xué)與計(jì)算智能的持續(xù)發(fā)展。 2.1 大數(shù)據(jù)中的相關(guān)關(guān)系與因果關(guān)系 因果關(guān)系指一個(gè)變量的發(fā)生會(huì)導(dǎo)致另一個(gè)變量的發(fā)生。而相關(guān)關(guān)系則指一個(gè)變量發(fā)生變化時(shí),另一個(gè)變量也會(huì)規(guī)律性地發(fā)生變化。 一般情況下,因果關(guān)系往往也是相關(guān)關(guān)系,而相關(guān)關(guān)系并不一定是因果關(guān)系。大數(shù)據(jù)的存在,使得人們可以廣泛尋求相關(guān)關(guān)系,Mayer-Sch?nberger甚至在其書中說道,“大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是放棄對(duì)因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系”。相關(guān)關(guān)系確實(shí)能在商業(yè)和實(shí)際應(yīng)用中帶來巨大的成功,但這種成功從科學(xué)角度尚需謹(jǐn)慎看待。
對(duì)此,不同的學(xué)者有不同甚至相反的看法。 建議未來重點(diǎn)研究方向:相關(guān)關(guān)系能夠逼近因果關(guān)系的程度,相關(guān)關(guān)系和因果關(guān)系的邊界,是否可以利用反事實(shí)推斷從相關(guān)關(guān)系中推斷出因果關(guān)系,以及如何保證大數(shù)據(jù)分析的結(jié)論可信等問題。 2.2 數(shù)據(jù)科學(xué)的復(fù)雜性問題 在計(jì)算機(jī)科學(xué)中,算法的計(jì)算復(fù)雜性是一個(gè)基本問題,包括時(shí)間復(fù)雜性和空間復(fù)雜性。而數(shù)據(jù)科學(xué)除了對(duì)計(jì)算復(fù)雜性的研究外,還需要探索數(shù)據(jù)自身的復(fù)雜性及模型復(fù)雜性。數(shù)據(jù)科學(xué)不能一味地靠增加數(shù)據(jù)量或者模型的參數(shù)規(guī)模來提升其性能。 給定一個(gè)具體問題,到底需要多大規(guī)模的數(shù)據(jù)或多復(fù)雜的模型才能獲得有效解?一個(gè)復(fù)雜模型判定能力的提升到底有沒有盡頭或界限?數(shù)據(jù)規(guī)模和模型復(fù)雜度之間是什么關(guān)系?這些問題在大數(shù)據(jù)工程化應(yīng)用中也許可以有經(jīng)驗(yàn)性的判定,但是在數(shù)據(jù)科學(xué)研究中需要弄清楚其基本內(nèi)涵和規(guī)律。 建議未來重點(diǎn)研究方向:從數(shù)據(jù)科學(xué)理論出發(fā),給出數(shù)據(jù)復(fù)雜性、模型復(fù)雜性和模型性能之間的關(guān)系(上下界或漸進(jìn)理論),為大數(shù)據(jù)的科學(xué)化研究和高效率應(yīng)用奠定重要基礎(chǔ);當(dāng)然,要對(duì)所有領(lǐng)域給出一個(gè)共同的數(shù)據(jù)科學(xué)基礎(chǔ)理論,可能比較困難,但可以考慮先從某些重要領(lǐng)域或典型問題出發(fā)進(jìn)行探索。 2.3 有限時(shí)空約束下的無限數(shù)據(jù)計(jì)算 在很多場(chǎng)景中,解決問題所需要的數(shù)據(jù)可能是大量流動(dòng)的,甚至是無限的——無法確定其邊界。
建議未來重點(diǎn)研究方向:面向上述邊界不確定的數(shù)據(jù),到底多大的數(shù)據(jù)量對(duì)問題而言是足夠的,以及什么樣的數(shù)據(jù)采樣機(jī)制才能保證逼近數(shù)據(jù)整體分布;或者說,該如何在有限時(shí)空資源限制下來處理邊界不確定的數(shù)據(jù)。 2.4 強(qiáng)不確定性復(fù)雜系統(tǒng)環(huán)境下的新型智能范式 大數(shù)據(jù)空間融合了“人-機(jī)-物”三元世界,其交互方式、運(yùn)行方式極其復(fù)雜。復(fù)雜系統(tǒng)中跨域高維稀疏的大數(shù)據(jù)具有很強(qiáng)的時(shí)空分布不確定性和價(jià)值規(guī)律不確定性。在這樣一個(gè)強(qiáng)不確定性的復(fù)雜環(huán)境下,能否形成形式化、可計(jì)算的新型智能范式?如果存在這樣的智能范式,是否還需要依靠大規(guī)模數(shù)據(jù)驅(qū)動(dòng)?現(xiàn)有的腦啟發(fā)計(jì)算、演化智能、復(fù)雜系統(tǒng)模擬等主要還是依賴計(jì)算機(jī)的計(jì)算能力,未來還需要進(jìn)一步探索能夠突破計(jì)算機(jī)計(jì)算能力邊界的智能范式。人在回路的人機(jī)混合智能是一個(gè)可能的發(fā)展方向,其目標(biāo)是打通人類智能與機(jī)器智能的融合通道,通過有機(jī)融合方式實(shí)現(xiàn)人機(jī)混合智能。 建議未來重點(diǎn)研究方向:人機(jī)混合的智能通道構(gòu)建及其方式(近幾年發(fā)展迅速的腦機(jī)接口技術(shù)、思維融合范式等);探索這類新型智能范式的主要特征是什么,是否圖靈計(jì)算等價(jià),是對(duì)當(dāng)前計(jì)算智能的改良還是顛覆,以及數(shù)據(jù)科學(xué)在其中發(fā)揮什么樣的作用等。這些開放性問題研究將為數(shù)據(jù)科學(xué)和計(jì)算智能帶來新的視野和機(jī)會(huì)。 2.5 圖靈測(cè)試以外的通用人工智能測(cè)試 圖靈測(cè)試是早期普遍被接受的人工智能測(cè)試準(zhǔn)則,主要通過測(cè)試者(人)與被測(cè)試者(機(jī)器)在隔離情況下的問答來測(cè)試機(jī)器的智能。這是一種非常巧妙的思想實(shí)驗(yàn),但并非工程實(shí)驗(yàn)。圖靈測(cè)試的?3?個(gè)開放特點(diǎn)——問題開放、測(cè)試者開放、語(yǔ)言開放,導(dǎo)致真正可重復(fù)的圖靈測(cè)試很難實(shí)現(xiàn)。而在一般的計(jì)算智能設(shè)計(jì)中,一個(gè)重要準(zhǔn)則就是需要可重復(fù)且有效的評(píng)價(jià)方式。 建議未來重點(diǎn)研究方向:探尋圖靈測(cè)試之外更加科學(xué)有效的通用人工智能測(cè)試方法,以及探索以人作為標(biāo)準(zhǔn)答案和參照系之外的可重復(fù)且有效的智能評(píng)價(jià)標(biāo)準(zhǔn)。 2.6 領(lǐng)域無關(guān)的數(shù)據(jù)分類體系與評(píng)價(jià)指標(biāo) 數(shù)據(jù)科學(xué)研究中的數(shù)據(jù)常常來自各個(gè)不同的領(lǐng)域,領(lǐng)域之間的數(shù)據(jù)類型、數(shù)據(jù)完整性、數(shù)據(jù)規(guī)律等具有非常大的差異性。我們不能只針對(duì)某個(gè)特定領(lǐng)域的數(shù)據(jù)來談?wù)摂?shù)據(jù)科學(xué),而應(yīng)該對(duì)所有領(lǐng)域的數(shù)據(jù)建立一套共同的話語(yǔ)體系和統(tǒng)一的度量標(biāo)準(zhǔn)。換句話說,需要對(duì)不同領(lǐng)域的大數(shù)據(jù),進(jìn)行領(lǐng)域無關(guān)的科學(xué)分類,構(gòu)建跨領(lǐng)域、可泛化的數(shù)據(jù)評(píng)價(jià)指標(biāo)和體系。 建議未來重點(diǎn)研究方向:可以從數(shù)據(jù)質(zhì)量、多樣性、復(fù)雜性、不確定性或價(jià)值密度等多個(gè)維度出發(fā),定義數(shù)據(jù)的統(tǒng)一評(píng)價(jià)指標(biāo)。這樣的評(píng)價(jià)指標(biāo)可以使不同領(lǐng)域的研究者對(duì)數(shù)據(jù)擁有共同話語(yǔ)體系,有利于以數(shù)據(jù)作為研究對(duì)象開展持續(xù)的科學(xué)化研究。 2.7 可信任的數(shù)據(jù)共享與流通 大數(shù)據(jù)是數(shù)據(jù)科學(xué)的研究基礎(chǔ)和研究對(duì)象,數(shù)據(jù)科學(xué)的發(fā)展離不開良性的數(shù)據(jù)治理和大數(shù)據(jù)基礎(chǔ)環(huán)境建設(shè)。其中一大挑戰(zhàn)問題是可信任的數(shù)據(jù)共享與流通。數(shù)據(jù)不同于傳統(tǒng)商品,可能會(huì)存在無限復(fù)制和無限使用的問題,因而造成數(shù)據(jù)流通價(jià)值失效。 建議未來重點(diǎn)研究方向:如何用技術(shù)手段來確保數(shù)據(jù)共享和流通的有效與安全,其中數(shù)據(jù)供給和數(shù)據(jù)使用是?2?個(gè)關(guān)鍵環(huán)節(jié)。
具體來說,可以利用密碼學(xué)、聯(lián)邦學(xué)習(xí)等手段,在保證隱私的前提下加密數(shù)據(jù)的傳輸,通過確立數(shù)據(jù)類型或關(guān)系而非獲得數(shù)據(jù)本身作為數(shù)據(jù)使用的主要方式。數(shù)據(jù)的共享和流通是數(shù)據(jù)開放研究的基礎(chǔ),期待未來有更多的人關(guān)注數(shù)據(jù)開放的技術(shù)手段研究。 3 未來展望:開啟“第五范式”科學(xué)研究 在過去十幾年間,隨著可獲得和可使用的大數(shù)據(jù)持續(xù)增長(zhǎng),第四范式作為一種新的科學(xué)研究范式,受到科學(xué)家越來越多的關(guān)注;同時(shí),也暴露出了很多不足。譬如:數(shù)據(jù)不確定性問題、數(shù)據(jù)復(fù)雜性問題、數(shù)據(jù)的維數(shù)爆炸問題、數(shù)據(jù)的尺度邊界問題等。 目前,網(wǎng)絡(luò)科學(xué)、腦科學(xué)、社會(huì)科學(xué)等領(lǐng)域面臨的重大問題都是極其復(fù)雜且動(dòng)態(tài)變化的難題,采用經(jīng)典物理一樣的簡(jiǎn)單實(shí)驗(yàn)(第一范式)、基于公理和假說的理論推演(第二范式)、基于模型的計(jì)算機(jī)模擬(第三范式)和數(shù)據(jù)驅(qū)動(dòng)的相關(guān)性分析(第四范式)都無法解決。為此,科學(xué)家開始尋求更接近數(shù)據(jù)和智能本質(zhì)、更有效認(rèn)識(shí)復(fù)雜性和不確定性的新科學(xué)研究范式。 目前,這類新的科學(xué)探索方法論尚未形成定論,大體上看,這類新的科學(xué)研究范式是以智能為研究目標(biāo)的浸入式具身研究,我們暫時(shí)稱之為“第五范式”?;跀?shù)據(jù)科學(xué)本體論認(rèn)識(shí),我們猜測(cè)“第五范式”和第四范式一樣都會(huì)以數(shù)據(jù)為對(duì)象,不同的是“第五范式”更側(cè)重于人、機(jī)器及數(shù)據(jù)之間交互,強(qiáng)調(diào)人的決策機(jī)制與數(shù)據(jù)分析的融合,體現(xiàn)了數(shù)據(jù)和智能的有機(jī)結(jié)合;“第五范式”強(qiáng)調(diào)從本體論的角度看待數(shù)據(jù),認(rèn)為數(shù)據(jù)本身蘊(yùn)含自然智能的規(guī)律,也是新型智能的載體和產(chǎn)物,期望在數(shù)據(jù)驅(qū)動(dòng)智能的同時(shí)突破現(xiàn)有計(jì)算智能的能力邊界,借助自然智能構(gòu)造新型智能范式。 目前,針對(duì)“第五范式”的探索剛剛起步,從方法論上還歸納不出它的基本特征;但可以肯定,它的一個(gè)重要特征是“融合”,既要融合前四種范式,又要融合統(tǒng)計(jì)學(xué)、網(wǎng)絡(luò)科學(xué)、腦科學(xué)等前沿研究中涌現(xiàn)的新方法。 第三范式和第四范式都用到計(jì)算機(jī):
數(shù)據(jù)科學(xué)和計(jì)算智能的發(fā)展催生“第五范式”;“第五范式”發(fā)展離不開對(duì)數(shù)據(jù)科學(xué)內(nèi)涵的豐富和計(jì)算智能能力邊界的突破。
目前,還難以給出“第五范式”的清晰界定,也許再過?10—20?年,“第五范式”的特征就明朗了,可能逐步成為科學(xué)研究的主流范式之一。
(文章源自:程學(xué)旗, 梅宏, 趙偉, 華云生, 沈華偉, 李國(guó)杰. 數(shù)據(jù)科學(xué)與計(jì)算智能:內(nèi)涵、范式與機(jī)遇. 中國(guó)科學(xué)院院刊, 2020, 35(12): 1470-1481) |
|
|