电竞比分网-中国电竞赛事及体育赛事平台

分享

數(shù)據(jù)科學(xué)通識第二講:數(shù)據(jù)科學(xué)

 黃曉東高考志愿 2020-03-24

1 什么是數(shù)據(jù)科學(xué)

數(shù)據(jù)科學(xué)是一門交叉學(xué)科,主要研究如何利用科學(xué)的方法、過程、算法或系統(tǒng),從結(jié)構(gòu)化的或非結(jié)構(gòu)化的數(shù)據(jù)中提煉知識、洞察規(guī)律、獲得見解。

以金融領(lǐng)域中的銀行業(yè)為例,銀行會從不同的渠道收集客戶的信用數(shù)據(jù),包括客戶的年齡、職業(yè)、收入、過往的還貸情況等。通過對上述數(shù)據(jù)的分析和處理,銀行可以建立信用風(fēng)險評估模型,從而對不同類型的用戶進(jìn)行信用風(fēng)險的等級判斷,幫助銀行來識別哪些是高風(fēng)險用戶,哪些是信用良好的低風(fēng)險用戶,進(jìn)而幫助銀行實施更好的信用和貸款管理。信用風(fēng)險評估是一個運用數(shù)據(jù)科學(xué)來幫助金融企業(yè)進(jìn)行決策的典型案例。

2 數(shù)據(jù)科學(xué)的基本內(nèi)涵

數(shù)據(jù)科學(xué)的基本內(nèi)涵有兩層意思:用數(shù)據(jù)的方法研究科學(xué)和用科學(xué)的方法研究數(shù)據(jù)。

第一層意思是用數(shù)據(jù)的方法研究科學(xué)問題。在科學(xué)研究的歷史長河中,經(jīng)過多年的發(fā)展,形成了從實驗歸納到模型推演,再到計算機仿真的三種科學(xué)研究范式。在如今這個數(shù)據(jù)爆炸的時代,數(shù)據(jù)驅(qū)動來推進(jìn)相關(guān)原理和方法發(fā)現(xiàn)的科學(xué)研究方法被稱為科學(xué)研究的第四范式,比如生物信息學(xué)、天體信息學(xué)等等。

數(shù)據(jù)科學(xué)基本內(nèi)涵的第二層意思,是指用科學(xué)的方法研究數(shù)據(jù)。我們對于數(shù)據(jù)的研究不是靠經(jīng)驗或者感覺,而是把數(shù)據(jù)的研究看作一個具有生命周期的過程,包含數(shù)據(jù)的采集、管理、分析,到可視化呈現(xiàn),以及數(shù)據(jù)如何進(jìn)行有效的治理,甚至數(shù)據(jù)的分析過程是不是涉及倫理問題等,都采用一種科學(xué)的方法來進(jìn)行研究。這就是數(shù)據(jù)科學(xué)的另一層含義,用科學(xué)的方法研究數(shù)據(jù)。

2.1 數(shù)據(jù)的方法研究科學(xué)

科學(xué)研究的第四范式也稱作數(shù)據(jù)密集型科學(xué)。它是將海量數(shù)據(jù)放入龐大的計算機集群中,只要數(shù)據(jù)間存在著一定的相互關(guān)系,那么就能找到相應(yīng)的模型和算法,來發(fā)現(xiàn)傳統(tǒng)的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識,甚至是新規(guī)律。

下述表格所呈現(xiàn)的開普勒第三定律的發(fā)現(xiàn)過程為例,開普勒通過觀察八大行星繞太陽運動的數(shù)據(jù),發(fā)現(xiàn)運行周期和距太陽的平均距離之間存在著某種規(guī)律,通過不停的演算,最后發(fā)現(xiàn)周期的平方和行星距太陽的距離的立方之比是一個常量,穩(wěn)定在1左右,進(jìn)而大膽地提出了開普勒第三定律。這是一個通過觀察數(shù)據(jù)、分析數(shù)據(jù)得出規(guī)律,用數(shù)據(jù)的方法研究科學(xué)問題的典型例子。

太陽系八大行星繞太陽運動的數(shù)據(jù)

數(shù)據(jù)科學(xué)對科學(xué)研究產(chǎn)生了重要的影響,當(dāng)前它已經(jīng)成為科研體系的重要組成部分。隨著未來的發(fā)展,它將取得與物理、化學(xué)、生命科學(xué)等自然學(xué)科同等重要的地位。數(shù)據(jù)科學(xué)也促使科學(xué)研究與市場產(chǎn)業(yè)、行業(yè)的聯(lián)系更加密切,縮短了從基本原理的發(fā)現(xiàn),到產(chǎn)生經(jīng)濟效益的產(chǎn)業(yè)化的周期。除此之外,數(shù)據(jù)科學(xué)相關(guān)的研究和應(yīng)用,與社會的發(fā)展以及人們?nèi)粘I畹穆?lián)系也將會越來越緊密。

2.2 科學(xué)的方法研究數(shù)據(jù)

用科學(xué)的方法研究數(shù)據(jù)是數(shù)據(jù)科學(xué)的另一層內(nèi)涵,它的意思是指數(shù)據(jù)科學(xué)在數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)的多學(xué)科的支撐下,從數(shù)據(jù)采集、數(shù)據(jù)管理、數(shù)據(jù)治理、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)倫理等眾多的方面來開展科學(xué)的研究,涵蓋了數(shù)據(jù)全生命周期的流程和相應(yīng)的處理鏈條。

  • 數(shù)據(jù)采集:借助相關(guān)的技術(shù)和手段來進(jìn)行數(shù)據(jù)的收集;數(shù)據(jù)管理環(huán)節(jié)中,通過將收集的數(shù)據(jù)存儲在介質(zhì)中,來對數(shù)據(jù)進(jìn)行管理和維護(hù);
  • 數(shù)據(jù)治理:通過對數(shù)據(jù)進(jìn)行有效的組織,可以有效提升數(shù)據(jù)的質(zhì)量,以便為后面的分析過程提供更好、更可用的數(shù)據(jù);
  • 數(shù)據(jù)分析:在數(shù)據(jù)分析環(huán)節(jié),通過對數(shù)據(jù)進(jìn)行詳細(xì)的研究和概括總結(jié),提煉有價值的信息來洞察規(guī)律,是最為重要的環(huán)節(jié);
  • 數(shù)據(jù)可視化:數(shù)據(jù)可視化,就是指運用圖形、圖表等多種有效的可視化方法來展示數(shù)據(jù),以便更清晰明確地傳遞數(shù)據(jù)中所蘊含的價值,也幫助人們更好的理解數(shù)據(jù)。
  • 數(shù)據(jù)安全:我們在分析和運用數(shù)據(jù)的過程中,是否會產(chǎn)生數(shù)據(jù)安全問題?是否會侵犯用戶的隱私?我們運用算法得出的一些結(jié)論,是否會對某些特定群體產(chǎn)生不公平現(xiàn)象?是否會存在認(rèn)知上的偏見?這些都被稱為數(shù)據(jù)倫理問題,也有很多的學(xué)者從事這方面的研究。
  • 數(shù)據(jù)應(yīng)用:對于數(shù)據(jù)應(yīng)用其實就更好理解了,我們通過對數(shù)據(jù)的分析,得出的知識、見解、原理,或者是相關(guān)關(guān)系,必將對相關(guān)的行業(yè)領(lǐng)域產(chǎn)生影響,也為相關(guān)的領(lǐng)域帶來應(yīng)用價值。

3 數(shù)據(jù)科學(xué):交叉學(xué)科

數(shù)據(jù)科學(xué)是一門交叉學(xué)科,德魯·康為(Drew Conway)的韋恩圖展示了數(shù)據(jù)科學(xué)多學(xué)科交叉的特性。

圖上有三個圓,分別代表計算機科學(xué)、數(shù)學(xué)與統(tǒng)計學(xué)和領(lǐng)域知識。數(shù)學(xué)統(tǒng)計學(xué)和領(lǐng)域知識的結(jié)合是傳統(tǒng)的研究方法。計算機科學(xué)與數(shù)學(xué)統(tǒng)計學(xué)的結(jié)合,誕生了機器學(xué)習(xí)這樣的研究領(lǐng)域。計算機科學(xué)與領(lǐng)域知識相結(jié)合,推動了大量的軟件開發(fā)與應(yīng)用,這三大領(lǐng)域的交集是數(shù)據(jù)科學(xué)(data science)。

從這里可以看出數(shù)據(jù)科學(xué)的內(nèi)涵和學(xué)科支撐是非常豐富的。數(shù)學(xué)統(tǒng)計知識為數(shù)據(jù)科學(xué)提供了數(shù)理基礎(chǔ),計算機的程序設(shè)計通過代碼展示數(shù)據(jù)分析的過程和結(jié)果。領(lǐng)域知識也是非常重要的,數(shù)據(jù)科學(xué)通過對數(shù)據(jù)的分析,得到相應(yīng)的知識和見解,它一定是與某一個行業(yè)領(lǐng)域緊密相關(guān)的。這些行業(yè)領(lǐng)域中的先驗知識,對于我們開展數(shù)據(jù)分析,以及分析結(jié)果的利用都是非常重要的。

4 大數(shù)據(jù)

我們已經(jīng)來到了一個數(shù)據(jù)爆炸的時代,“大數(shù)據(jù)”(Big Data)這個詞近年來十分火爆。大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)的軟件工具對其內(nèi)容進(jìn)行獲取、管理和處理的海量數(shù)據(jù)的集合。大數(shù)據(jù)具有“5V”特性:

  • 規(guī)模性(Volume):形容數(shù)據(jù)量非常大。
  • 多樣性(Variety):指數(shù)據(jù)的類型眾多,有結(jié)構(gòu)化的,也有非結(jié)構(gòu)化的。
  • 高速性(Velocity):是指數(shù)據(jù)產(chǎn)生的速度非??臁S捎谠谖覀兊娜粘I钪?,每天都會快速產(chǎn)生大量的數(shù)據(jù),所以要求我們處理數(shù)據(jù)的能力要強、處理的速度要快,這樣才能快速發(fā)現(xiàn)數(shù)據(jù)中的價值。
  • 真實性(Veracity):指的是從互聯(lián)網(wǎng)或是智能傳感器等數(shù)據(jù)收集工具得到的數(shù)據(jù),是人們真實行為的一個體現(xiàn),通過對這些數(shù)據(jù)的分析,可以洞察人們的行為規(guī)律。
  • 價值性(Value):指的是大數(shù)據(jù)的價值密度低。價值隱藏在海量的數(shù)據(jù)中,我們要通過分析挖掘才能得到這樣的價值。這就是大數(shù)據(jù)的“5V”特性。

那么到底多大的數(shù)據(jù)被稱為“大數(shù)據(jù)”呢?在計算機中所有的信息都是以二進(jìn)制來存儲的,一位二進(jìn)制,稱為一個比特,8位二進(jìn)制稱為一個字節(jié)(Byte)。KB是指1024個字節(jié)就是1024×8個比特。再進(jìn)一步以1024個單位遞增,有MB、GB、TB、PB、EB、ZB和YB等。到底多大算“大數(shù)據(jù)”,是一個動態(tài)發(fā)展的過程,目前來看,在TB、PB以上級別的數(shù)據(jù)量就可以被稱為是“大數(shù)據(jù)”了。

5 數(shù)據(jù)科學(xué)與大數(shù)據(jù)

數(shù)據(jù)科學(xué)是一門以數(shù)據(jù),尤其是大數(shù)據(jù)作為研究對象的學(xué)科。大數(shù)據(jù)最大的特點就是數(shù)據(jù)的規(guī)模大,而數(shù)據(jù)科學(xué)本身它并不強調(diào)數(shù)據(jù)規(guī)模的大小,在大數(shù)據(jù)出現(xiàn)之前,數(shù)據(jù)科學(xué)也有著廣泛的應(yīng)用。

我們剛剛介紹的開普勒第三定律,它的發(fā)現(xiàn)過程實際上并不是在大數(shù)據(jù)時代,它是很早的一個數(shù)據(jù)科學(xué)應(yīng)用的例子。

針對大數(shù)據(jù)所帶來的這種挑戰(zhàn),數(shù)據(jù)科學(xué)更擁有了用武之地,它為在海量的數(shù)據(jù)中挖掘價值,構(gòu)建相應(yīng)的規(guī)律,提供了新的思維、新的思路和新的方法。

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多