|
2016 年,谷歌 AlphaGo 機器人在圍棋比賽中擊敗了世界冠軍李世石,引爆了人工智能,開啟人工智能的新紀元。2017年,國務(wù)院發(fā)布實施了《新一代人工智能發(fā)展規(guī)劃》,對中國面向2030年的人工智能產(chǎn)業(yè)進行了整體規(guī)劃與部署。一時間,人工智能AI成為炙手可熱的風(fēng)口,幾乎所有的IT互聯(lián)網(wǎng)企業(yè),以及那些還在推動互聯(lián)網(wǎng)+、數(shù)字化轉(zhuǎn)型的傳統(tǒng)企業(yè),也試圖尋求借助人工智能實現(xiàn)自身的轉(zhuǎn)型升級。 但如同這些年來,大數(shù)據(jù)先是被神化,然后又被妖魔化的技術(shù)概念炒作路線一樣,本輪AI熱潮也必然會經(jīng)歷從過度神化走向落地的過程。在狂熱之余,也有必要分析本輪AI熱潮的實質(zhì):本輪火熱的人工智能在算法或模型方面并無革命性的重大突破。深度學(xué)習(xí)早在上世紀八十年代就已經(jīng)出現(xiàn)。近年來人工智能的突然爆發(fā),主要有兩個關(guān)鍵因素:一是大數(shù)據(jù),為深度學(xué)習(xí)算法提供海量的訓(xùn)練數(shù)據(jù)作支撐;二是高性能計算,尤其是通用計算GPU給予了神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)強大的計算力支持,使得以前無法完成的計算或者無法在短時間內(nèi)完成的計算成為了可能。 正因為有了兩個關(guān)鍵因素作支撐,使得本輪人工智能呈現(xiàn)與以往不同的特征:在特定領(lǐng)域,學(xué)習(xí)的主體真正由人變成了機器,人工智能正式進入了2.0時代。這也是試圖尋求借助人工智能實現(xiàn)自身轉(zhuǎn)型升級的傳統(tǒng)企業(yè),最為關(guān)注的焦點:即如何借助人工智能技術(shù),通過機器自主學(xué)習(xí)從海量的文本、視頻、圖像等大數(shù)據(jù)中每天24小時、永不停息地探尋規(guī)則、模式、預(yù)測、趨勢、關(guān)聯(lián)關(guān)系等隱性知識,實現(xiàn)知識創(chuàng)新服務(wù)與決策支持,釋放“智能紅利”,而使公司獲得更早的發(fā)展先機和更強的競爭力。因此,本文的關(guān)注重點并非研究某項具體的人工智能技術(shù),而是探討如何在傳統(tǒng)企業(yè)內(nèi)部建立從大數(shù)據(jù)到知識的一套工作機制或方法,即行業(yè)數(shù)據(jù)+AI元素,促成AI技術(shù)在行業(yè)知識轉(zhuǎn)化過程中更好的發(fā)揮創(chuàng)新引領(lǐng)作用。 1. 從大數(shù)據(jù)到知識的轉(zhuǎn)化過程 本文提出通過大數(shù)據(jù)治理工作,在企業(yè)內(nèi)部建立起一套支撐大數(shù)據(jù)深化應(yīng)用、AI2.0(即機器自主學(xué)習(xí))常態(tài)化運轉(zhuǎn),涵蓋大數(shù)據(jù)、組織架構(gòu)、技術(shù)平臺等在內(nèi)的創(chuàng)新工作機制,將隱性知識的轉(zhuǎn)化主體逐漸由人向機器轉(zhuǎn)變。如下圖所示。 企業(yè)大數(shù)據(jù)包括社交媒體數(shù)據(jù)、機器對機器數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計量學(xué)數(shù)據(jù)和人工生成數(shù)據(jù),分為文本、視頻、圖像、語音等承載形態(tài)。大數(shù)據(jù)到知識的轉(zhuǎn)化可以分為兩個階段: 在大數(shù)據(jù)深化應(yīng)用階段,企業(yè)主要由數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師等大數(shù)據(jù)專業(yè)人員運用機器學(xué)習(xí)、探索分析、實時數(shù)據(jù)服務(wù)等大數(shù)據(jù)深化應(yīng)用技術(shù),從大數(shù)據(jù)中提取出規(guī)則、趨勢、關(guān)聯(lián)關(guān)系等各類知識,基于相關(guān)的應(yīng)用方向結(jié)合實際需求,構(gòu)建應(yīng)用場景,從而產(chǎn)生業(yè)務(wù)價值;這個階段的主要特征是以人為學(xué)習(xí)主體,大數(shù)據(jù)專業(yè)人員全程掌控,基于自身經(jīng)驗去獲取所需的各類數(shù)據(jù)、選擇合適的算法、技術(shù)、工具平臺去發(fā)掘隱含在大數(shù)據(jù)中的隱性知識,完全離不開“人”。 在新一代人工智能應(yīng)用階段,由數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師等大數(shù)據(jù)專業(yè)人員利用各種深度學(xué)習(xí)算法,放棄對結(jié)果的可解釋性、不限定問題假設(shè)、不訓(xùn)練樣本、也不人工標記數(shù)據(jù)集,只追求學(xué)習(xí)的有效性,僅結(jié)合人類的先驗常識、隱性直覺等知識為引導(dǎo),基于海量大數(shù)據(jù),整體圍繞“以機器為學(xué)習(xí)主體”這一目標,建立注意力模型、記憶網(wǎng)絡(luò)、遷移學(xué)習(xí)、強化學(xué)習(xí)、半監(jiān)督/無監(jiān)督學(xué)習(xí)等算法模型,實現(xiàn)從淺層計算到深度神經(jīng)推理,“永不停息”自主驅(qū)動學(xué)習(xí),去發(fā)掘隱含在大數(shù)據(jù)中的隱性知識,最終使機器自身具備數(shù)據(jù)收集、整理、分析的能力,并自主對算法進行調(diào)整和優(yōu)化,自主將大數(shù)據(jù)轉(zhuǎn)變?yōu)橹R,實現(xiàn)高階人工智能,更好地支撐知識創(chuàng)新服務(wù)與各級決策。 2. 大數(shù)據(jù)治理 為了更好地支撐大數(shù)據(jù)到知識轉(zhuǎn)化過程,應(yīng)將傳統(tǒng)數(shù)據(jù)治理升級到大數(shù)據(jù)治理,如同大數(shù)據(jù)是數(shù)據(jù)一樣,大數(shù)據(jù)治理本質(zhì)上也是數(shù)據(jù)治理,數(shù)據(jù)治理方法論同樣也適用于大數(shù)據(jù)治理,但是考慮到大數(shù)據(jù)的特性,需要作出適當(dāng)?shù)恼{(diào)整,本文重點闡述大數(shù)據(jù)治理與傳統(tǒng)數(shù)據(jù)治理差異性較大的內(nèi)容,以及大數(shù)據(jù)治理對于深化大數(shù)據(jù)應(yīng)用、支撐新一代人工智能落地的基石作用。 通過大數(shù)據(jù)治理,將推動“以人為學(xué)習(xí)主體”的大數(shù)據(jù)深化應(yīng)用階段逐步向“以機器為學(xué)習(xí)主體”的新一代人工智能應(yīng)用階段轉(zhuǎn)變,推進治理的數(shù)據(jù)類型由傳統(tǒng)的、占比不到15%的結(jié)構(gòu)化數(shù)據(jù)向原生態(tài)格式、多結(jié)構(gòu)、占比超過85%的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變;推進治理的數(shù)據(jù)范圍由專注企業(yè)內(nèi)部數(shù)據(jù)向行業(yè)上下游、跨行業(yè)、社會輿情等數(shù)據(jù)轉(zhuǎn)變;推進數(shù)據(jù)治理工作目標由體現(xiàn)間接價值向直接推動價值創(chuàng)造轉(zhuǎn)變。 2.1 大數(shù)據(jù)治理組織 在現(xiàn)有數(shù)據(jù)治理組織架構(gòu)中增加大數(shù)據(jù)治理相關(guān)的職責(zé)和角色:將數(shù)據(jù)科學(xué)家、AI算法專家等大數(shù)據(jù)專家納入到?jīng)Q策層——數(shù)據(jù)治理委員會(或知識創(chuàng)新領(lǐng)導(dǎo)小組,名字不限于此),大數(shù)據(jù)專家從驅(qū)動數(shù)據(jù)到知識的轉(zhuǎn)化視角、知識指導(dǎo)實踐的洞察視角,輔助作出各種決策,有助于從組織高階層面為驅(qū)動大數(shù)據(jù)轉(zhuǎn)化知識爭取更多資源。按大數(shù)據(jù)類型分設(shè)大數(shù)據(jù)主管[1],負責(zé)本類型大數(shù)據(jù)的收集(不限本公司)、內(nèi)部提供、外部交換及質(zhì)量、安全等管理工作。數(shù)據(jù)主管向業(yè)務(wù)部門匯報,憑借其專業(yè)性,負責(zé)提升數(shù)據(jù)資產(chǎn)的可信度和隱私性,同時確保開展大數(shù)據(jù)深化應(yīng)用、深化學(xué)習(xí)時,各項保障工作能支撐到位。 2.2 大數(shù)據(jù)質(zhì)量管理 大數(shù)據(jù)質(zhì)量管理相比傳統(tǒng)數(shù)據(jù)質(zhì)量管理更加復(fù)雜,主要表現(xiàn)在數(shù)據(jù)來源復(fù)雜且多樣性、組織內(nèi)外數(shù)據(jù)含義存在差異性、外部數(shù)據(jù)難以有效控制質(zhì)量且錯誤數(shù)據(jù)無法溯源等等。同時,機器學(xué)習(xí)、深度學(xué)習(xí)算法對數(shù)據(jù)質(zhì)量要求極高,否則可能會導(dǎo)致機器無法自主學(xué)習(xí)、或產(chǎn)生錯誤知識,影響決策,造成資源浪費。大數(shù)據(jù)質(zhì)量評估維度需要重新定義。目前在大數(shù)據(jù)質(zhì)量的可度量性方面以麻省理工學(xué)院Richard Y.Wang等提出的數(shù)據(jù)質(zhì)量度量維度為典型代表,將大數(shù)據(jù)質(zhì)量維度分為四大類、19個維度[2],如下表所示: 2.3 大數(shù)據(jù)架構(gòu)管理 當(dāng)前,各大型企業(yè)都已啟動或即將完成大數(shù)據(jù)平臺建設(shè),基本上都規(guī)劃了本企業(yè)的大數(shù)據(jù)架構(gòu),在此不再重復(fù)。在本處強調(diào)三點: 一是需要建立面向多源異構(gòu)數(shù)據(jù)、尤其是非結(jié)構(gòu)化數(shù)據(jù)的自動采集機制,數(shù)據(jù)來源可能是合作企業(yè),也有可能是熱點網(wǎng)站,需針對不同類型數(shù)據(jù)定制化開發(fā)不同的采集程序,如包裝器、抽取程序等; 二是文本、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù),必須與人員、組織、產(chǎn)品等主數(shù)據(jù)進行關(guān)聯(lián),從而通過索引、分析等技術(shù),挖掘非結(jié)構(gòu)化數(shù)據(jù)的潛在價值; 三是大數(shù)據(jù)架構(gòu)應(yīng)逐漸向“以機器為學(xué)習(xí)主體”的目標架構(gòu)階段性演進。與傳統(tǒng)的數(shù)據(jù)倉庫建設(shè)方法類似,前期可根據(jù)應(yīng)用需求,選擇知識圖譜、智能機器人等應(yīng)用方向,基于特定領(lǐng)域設(shè)計應(yīng)用場景,逐步建立起針對內(nèi)外部數(shù)據(jù)自動采集、整合、分析以及自動學(xué)習(xí)優(yōu)化算法的能力,通過場景驅(qū)動逐漸推動大數(shù)據(jù)應(yīng)用架構(gòu)向大數(shù)據(jù)智能化架構(gòu)演進。 2.4 大數(shù)據(jù)生命周期管理 大數(shù)據(jù)生命周期管理與傳統(tǒng)數(shù)據(jù)生命周期管理在流程上比較相似,但大數(shù)據(jù)環(huán)境下的數(shù)據(jù)清理,與傳統(tǒng)數(shù)據(jù)清理區(qū)別較大。對于傳統(tǒng)數(shù)據(jù)而言,數(shù)據(jù)質(zhì)量是一個很重要的特性,但對于大數(shù)據(jù),數(shù)據(jù)可用性則更為重要,傳統(tǒng)意義上的垃圾數(shù)據(jù),也有可能變廢為寶。對于不同的可用性數(shù)據(jù),應(yīng)建立不同的數(shù)據(jù)質(zhì)量標準,如應(yīng)用于財務(wù)統(tǒng)計的數(shù)據(jù)和應(yīng)用于分析的數(shù)據(jù),在質(zhì)量標準上有所不同,有的需求注重數(shù)據(jù)全面性但對質(zhì)量要求不是特別高;有些需求,如審計與風(fēng)險,則嚴格關(guān)注垃圾數(shù)據(jù)并從中發(fā)現(xiàn)問題。因此,大數(shù)據(jù)應(yīng)用中不建議直接清理垃圾數(shù)據(jù),可通過數(shù)據(jù)質(zhì)量分級,不同質(zhì)量等級的數(shù)據(jù)滿足不同層次的應(yīng)用需求。 2.5 大數(shù)據(jù)服務(wù)創(chuàng)新 大數(shù)據(jù)治理與數(shù)據(jù)治理最大的區(qū)別在于兩者的關(guān)注點不同,數(shù)據(jù)治理主要是為了保證數(shù)據(jù)能夠反映并還原真實業(yè)務(wù),促進數(shù)據(jù)與業(yè)務(wù)的一致性,使企業(yè)能基于真實的數(shù)據(jù)環(huán)境更好的開展各項業(yè)務(wù)活動,產(chǎn)生間接價值。但大數(shù)據(jù)治理更多關(guān)注發(fā)揮大數(shù)據(jù)的應(yīng)用價值,通過大數(shù)據(jù)深化應(yīng)用、深度學(xué)習(xí)算法模型去發(fā)掘隱藏在海量大數(shù)據(jù)中的規(guī)則、模式、關(guān)系等知識,從而指導(dǎo)業(yè)務(wù)部門開展領(lǐng)先于市場競爭對手的高價值、低風(fēng)險的業(yè)務(wù)活動;通過支撐新產(chǎn)業(yè)和新業(yè)態(tài)的跨界深度融合,甚至為企業(yè)開辟全新的市場空白地帶,促進公司業(yè)務(wù)的全面創(chuàng)新與高速發(fā)展。 3.總結(jié) 本文從大數(shù)據(jù)視角將新一代人工智能定位為相對于大數(shù)據(jù)深化應(yīng)用更高階段的知識提取過程,并指出了兩者的明確區(qū)別:以人為學(xué)習(xí)主體的大數(shù)據(jù)深化應(yīng)用階段和以機器為學(xué)習(xí)主體的新一代人工智能應(yīng)用階段;兩者的共同之處都是從大數(shù)據(jù)到知識轉(zhuǎn)化過程。在大數(shù)據(jù)轉(zhuǎn)化為知識的過程中,以應(yīng)用場景為驅(qū)動,通過大數(shù)據(jù)治理各項業(yè)務(wù)活動,促進大數(shù)據(jù)、人工智能技術(shù)的深度融合,釋放“智能紅利”,推動新一代人工智能應(yīng)用逐漸落地。 引用: [1]桑尼爾.索雷斯. 大數(shù)據(jù)治理[M]. 匡斌譯. 北京:清華大學(xué)出版社,2014. [2]張紹華,潘蓉,宗宇偉. 大數(shù)據(jù)治理與服務(wù). 上??茖W(xué)技術(shù)出版社,2016. 【作者簡介】 楊科學(xué),御數(shù)坊高級咨詢顧問,2006年碩士畢業(yè)于中南大學(xué)計算機專業(yè),獲得數(shù)據(jù)管理專業(yè)認證(CDMP)、信息系統(tǒng)項目管理師認證,主要從事數(shù)據(jù)治理、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型設(shè)計等咨詢和設(shè)計工作。先后為金融、電力等行業(yè)的多家大型企業(yè)提供數(shù)據(jù)治理咨詢和企業(yè)數(shù)據(jù)模型設(shè)計服務(wù)工作。 會員專欄 會員專欄是針對會員企業(yè)的高質(zhì)量原創(chuàng)內(nèi)容與精彩觀點的分享欄目,為會員企業(yè)提供深度思考、創(chuàng)新理念、案例經(jīng)驗、專業(yè)成就等內(nèi)容分享的平臺,旨在擴大會員企業(yè)先進思想的影響,傳播AI大數(shù)據(jù)的正確理念,促進AI大數(shù)據(jù)落地應(yīng)用,助力傳統(tǒng)產(chǎn)業(yè)智能化轉(zhuǎn)型升級。 |
|
|