1 什么是數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)是一門交叉學(xué)科,主要研究如何利用科學(xué)的方法、過程、算法或系統(tǒng),從結(jié)構(gòu)化的或非結(jié)構(gòu)化的數(shù)據(jù)中提煉知識、洞察規(guī)律、獲得見解。 以金融領(lǐng)域中的銀行業(yè)為例,銀行會從不同的渠道收集客戶的信用數(shù)據(jù),包括客戶的年齡、職業(yè)、收入、過往的還貸情況等。通過對上述數(shù)據(jù)的分析和處理,銀行可以建立信用風(fēng)險評估模型,從而對不同類型的用戶進(jìn)行信用風(fēng)險的等級判斷,幫助銀行來識別哪些是高風(fēng)險用戶,哪些是信用良好的低風(fēng)險用戶,進(jìn)而幫助銀行實施更好的信用和貸款管理。信用風(fēng)險評估是一個運用數(shù)據(jù)科學(xué)來幫助金融企業(yè)進(jìn)行決策的典型案例。 2 數(shù)據(jù)科學(xué)的基本內(nèi)涵數(shù)據(jù)科學(xué)的基本內(nèi)涵有兩層意思:用數(shù)據(jù)的方法研究科學(xué)和用科學(xué)的方法研究數(shù)據(jù)。 第一層意思是用數(shù)據(jù)的方法研究科學(xué)問題。在科學(xué)研究的歷史長河中,經(jīng)過多年的發(fā)展,形成了從實驗歸納到模型推演,再到計算機仿真的三種科學(xué)研究范式。在如今這個數(shù)據(jù)爆炸的時代,數(shù)據(jù)驅(qū)動來推進(jìn)相關(guān)原理和方法發(fā)現(xiàn)的科學(xué)研究方法被稱為科學(xué)研究的第四范式,比如生物信息學(xué)、天體信息學(xué)等等。 數(shù)據(jù)科學(xué)基本內(nèi)涵的第二層意思,是指用科學(xué)的方法研究數(shù)據(jù)。我們對于數(shù)據(jù)的研究不是靠經(jīng)驗或者感覺,而是把數(shù)據(jù)的研究看作一個具有生命周期的過程,包含數(shù)據(jù)的采集、管理、分析,到可視化呈現(xiàn),以及數(shù)據(jù)如何進(jìn)行有效的治理,甚至數(shù)據(jù)的分析過程是不是涉及倫理問題等,都采用一種科學(xué)的方法來進(jìn)行研究。這就是數(shù)據(jù)科學(xué)的另一層含義,用科學(xué)的方法研究數(shù)據(jù)。 2.1 數(shù)據(jù)的方法研究科學(xué)科學(xué)研究的第四范式也稱作數(shù)據(jù)密集型科學(xué)。它是將海量數(shù)據(jù)放入龐大的計算機集群中,只要數(shù)據(jù)間存在著一定的相互關(guān)系,那么就能找到相應(yīng)的模型和算法,來發(fā)現(xiàn)傳統(tǒng)的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識,甚至是新規(guī)律。 下述表格所呈現(xiàn)的開普勒第三定律的發(fā)現(xiàn)過程為例,開普勒通過觀察八大行星繞太陽運動的數(shù)據(jù),發(fā)現(xiàn)運行周期和距太陽的平均距離之間存在著某種規(guī)律,通過不停的演算,最后發(fā)現(xiàn)周期的平方和行星距太陽的距離的立方之比是一個常量,穩(wěn)定在1左右,進(jìn)而大膽地提出了開普勒第三定律。這是一個通過觀察數(shù)據(jù)、分析數(shù)據(jù)得出規(guī)律,用數(shù)據(jù)的方法研究科學(xué)問題的典型例子。 數(shù)據(jù)科學(xué)對科學(xué)研究產(chǎn)生了重要的影響,當(dāng)前它已經(jīng)成為科研體系的重要組成部分。隨著未來的發(fā)展,它將取得與物理、化學(xué)、生命科學(xué)等自然學(xué)科同等重要的地位。數(shù)據(jù)科學(xué)也促使科學(xué)研究與市場產(chǎn)業(yè)、行業(yè)的聯(lián)系更加密切,縮短了從基本原理的發(fā)現(xiàn),到產(chǎn)生經(jīng)濟效益的產(chǎn)業(yè)化的周期。除此之外,數(shù)據(jù)科學(xué)相關(guān)的研究和應(yīng)用,與社會的發(fā)展以及人們?nèi)粘I畹穆?lián)系也將會越來越緊密。 2.2 科學(xué)的方法研究數(shù)據(jù)用科學(xué)的方法研究數(shù)據(jù)是數(shù)據(jù)科學(xué)的另一層內(nèi)涵,它的意思是指數(shù)據(jù)科學(xué)在數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)的多學(xué)科的支撐下,從數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)倫理等眾多的方面來開展科學(xué)的研究,涵蓋了數(shù)據(jù)全生命周期的流程和相應(yīng)的處理鏈條。
3 數(shù)據(jù)科學(xué):交叉學(xué)科數(shù)據(jù)科學(xué)是一門交叉學(xué)科,德魯·康為(Drew Conway)的韋恩圖展示了數(shù)據(jù)科學(xué)多學(xué)科交叉的特性。 圖上有三個圓,分別代表計算機科學(xué)、數(shù)學(xué)與統(tǒng)計學(xué)和領(lǐng)域知識。數(shù)學(xué)統(tǒng)計學(xué)和領(lǐng)域知識的結(jié)合是傳統(tǒng)的研究方法。計算機科學(xué)與數(shù)學(xué)統(tǒng)計學(xué)的結(jié)合,誕生了機器學(xué)習(xí)這樣的研究領(lǐng)域。計算機科學(xué)與領(lǐng)域知識相結(jié)合,推動了大量的軟件開發(fā)與應(yīng)用,這三大領(lǐng)域的交集是數(shù)據(jù)科學(xué)(data science)。 從這里可以看出數(shù)據(jù)科學(xué)的內(nèi)涵和學(xué)科支撐是非常豐富的。數(shù)學(xué)統(tǒng)計知識為數(shù)據(jù)科學(xué)提供了數(shù)理基礎(chǔ),計算機的程序設(shè)計通過代碼展示數(shù)據(jù)分析的過程和結(jié)果。領(lǐng)域知識也是非常重要的,數(shù)據(jù)科學(xué)通過對數(shù)據(jù)的分析,得到相應(yīng)的知識和見解,它一定是與某一個行業(yè)領(lǐng)域緊密相關(guān)的。這些行業(yè)領(lǐng)域中的先驗知識,對于我們開展數(shù)據(jù)分析,以及分析結(jié)果的利用都是非常重要的。 4 大數(shù)據(jù)我們已經(jīng)來到了一個數(shù)據(jù)爆炸的時代,“大數(shù)據(jù)”(Big Data)這個詞近年來十分火爆。大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)的軟件工具對其內(nèi)容進(jìn)行獲取、管理和處理的海量數(shù)據(jù)的集合。大數(shù)據(jù)具有“5V”特性:
那么到底多大的數(shù)據(jù)被稱為“大數(shù)據(jù)”呢?在計算機中所有的信息都是以二進(jìn)制來存儲的,一位二進(jìn)制,稱為一個比特,8位二進(jìn)制稱為一個字節(jié)(Byte)。KB是指1024個字節(jié)就是1024×8個比特。再進(jìn)一步以1024個單位遞增,有MB、GB、TB、PB、EB、ZB和YB等。到底多大算“大數(shù)據(jù)”,是一個動態(tài)發(fā)展的過程,目前來看,在TB、PB以上級別的數(shù)據(jù)量就可以被稱為是“大數(shù)據(jù)”了。 5 數(shù)據(jù)科學(xué)與大數(shù)據(jù)數(shù)據(jù)科學(xué)是一門以數(shù)據(jù),尤其是大數(shù)據(jù)作為研究對象的學(xué)科。大數(shù)據(jù)最大的特點就是數(shù)據(jù)的規(guī)模大,而數(shù)據(jù)科學(xué)本身它并不強調(diào)數(shù)據(jù)規(guī)模的大小,在大數(shù)據(jù)出現(xiàn)之前,數(shù)據(jù)科學(xué)也有著廣泛的應(yīng)用。 我們剛剛介紹的開普勒第三定律,它的發(fā)現(xiàn)過程實際上并不是在大數(shù)據(jù)時代,它是很早的一個數(shù)據(jù)科學(xué)應(yīng)用的例子。 針對大數(shù)據(jù)所帶來的這種挑戰(zhàn),數(shù)據(jù)科學(xué)更擁有了用武之地,它為在海量的數(shù)據(jù)中挖掘價值,構(gòu)建相應(yīng)的規(guī)律,提供了新的思維、新的思路和新的方法。 |
|
|