电竞比分网-中国电竞赛事及体育赛事平台

分享

知識、數(shù)據(jù)與模型

 印度阿三17 2019-08-21

很多領(lǐng)域都需要用知識和數(shù)據(jù)建立模型用于預(yù)測未來或認識過去。有些領(lǐng)域,知識很少,數(shù)據(jù)很多,數(shù)據(jù)容易獲取,建立模型時主要用數(shù)據(jù)就能完成,比如圖像識別、語音識別、垃圾識別,這主要針對具有人類日常知識的通用領(lǐng)域,數(shù)據(jù)標簽獲取難度低。有些領(lǐng)域,積累了很多知識,數(shù)據(jù)很少,公開的數(shù)據(jù)更少,數(shù)據(jù)獲取費用很高,建模型時使用少量的數(shù)據(jù),再上大量的知識,比如地下地質(zhì)體地質(zhì)建模、金融預(yù)測模型,這些針對專業(yè)性很強的領(lǐng)域,門檻較高,數(shù)據(jù)標簽獲取的難度大,費用高。目前流行的基于大數(shù)據(jù)的機器學習適合于數(shù)據(jù)密集型建模,不太適應(yīng)缺少樣本的專業(yè)領(lǐng)域的機器學習?;诜枌W習的機器學習適合知識密集型建模,或許是專業(yè)領(lǐng)域智能建模的必有之路。

按照最早人工智能的發(fā)展設(shè)想,要達到強人工智能,類似于人類的智能,要先經(jīng)過數(shù)據(jù)智能(學習),再經(jīng)過符號(智能)學習,最后達到生物(人)智能?;跀?shù)據(jù)的學習計算量大,基于符號的機器學習計算量小,更符合人類的學習過程。而且人類知識也多以符號的形式存儲和表達。因此,從這個角度說,目前處于人工智能的初級階段。

鉆井資料少、地震資料分辨率地,建立模型時往往利用大量的經(jīng)驗知識。目前流行的機器學習方法,主要基于統(tǒng)計學方法,需要用到大量數(shù)據(jù),從數(shù)據(jù)中重建專家的經(jīng)驗知識。與傳統(tǒng)的建模方法,即業(yè)務(wù)專家指導的數(shù)據(jù)空間插值方法不同。當不存在大量樣本可以學習的情況下,甚至小樣本也不存在的情況下,如何讓業(yè)務(wù)領(lǐng)域的專家知識約束機器學習非常重要,這應(yīng)該需要采用符號學習的方法,通常稱為知識表示(knowledge representation)。

要進行符號學習,那些專家關(guān)于地質(zhì)的地質(zhì)表示就非常重要,知識一般通過符號表示。實際上,基于符號的機器學習比基于數(shù)據(jù)統(tǒng)計的機器學習發(fā)展的更早,只是一直沒有取得突破,后者在互聯(lián)網(wǎng)支撐的大數(shù)據(jù)時代獲得了突飛猛進的發(fā)展。傳統(tǒng)上,基于符號的學習要把人類的知識符號化,再把這些具有一定關(guān)系的符號通過編碼的方式輸入給計算機,使計算機具有特定的智能特征,這條路有很多人嘗試,沒有走通,但仍有少量人在堅持。或許,基于數(shù)據(jù)統(tǒng)計和符號關(guān)系的方法相結(jié)合才是正道。人類知識的符號化表示,自動的表示,應(yīng)該是人工智能道路上不可或缺的一部。分析人類專家如何進行地質(zhì)建模有利于地質(zhì)建模領(lǐng)域的符號化機器學習。

人先經(jīng)過多年學習擁有地質(zhì)建模的相關(guān)知識,再拿到相關(guān)數(shù)據(jù),才能建立合理的地質(zhì)模型。這些知識包含很多,知識的多少很大程度上決定了模型的準確性,因為,當數(shù)據(jù)相同時,不同人因為知識量的不同所建立的模型會差別很大。先知道這些知識是什么,數(shù)據(jù)是什么,模型是什么,然后才能決定如何進行地質(zhì)建模知識的符號化,要對那些知識進行符號化。

數(shù)據(jù)好理解,主要是野外露頭觀測、鉆井、測井、錄井、地震、巖石分析化驗、動態(tài)監(jiān)測、生產(chǎn)數(shù)據(jù)等。知識比較難理解,地質(zhì)建模的專家一般都學習了地史學、古生物學、構(gòu)造地質(zhì)學、礦物學、巖石學、沉積巖石學、沉積學、大學數(shù)學、大學化學、大學物理、數(shù)值計算、統(tǒng)計學、開發(fā)地質(zhì)學等專業(yè)知識。但什么是知識呢?按照通常的定義,知識人類通過實踐獲取的對事物規(guī)律的認識。知識具有相對正確性,可表示性&可利用性,不確定性。知識的分類:常識性知識、事實性知識、確定性知識、邏輯性知識等。有很多知識是描述性的文字,如何把描述性的知識讓計算機能夠識別和認識是符號機器學習的關(guān)鍵。這涉及要知識的表示與重建。

關(guān)于知識表示已經(jīng)有很長的研究歷史。知識表示是對知識的定量化描述,一種計算機可以接受的用于描述知識的數(shù)據(jù)結(jié)構(gòu)。早期的知識表示方法有一階謂詞邏輯、產(chǎn)生式系統(tǒng)、框架表示方法、語義網(wǎng)絡(luò)、邏輯程序、缺省邏輯和模態(tài)邏輯等。人們所熟悉的知識圖譜就是大規(guī)模的語義網(wǎng)絡(luò)的知識表示。常規(guī)的知識表示是人工的知識表示,是小規(guī)模的知識表示,需要花費巨大的人力物力,比如詞林辭海是上萬名專家花了10多年編撰而成的。大規(guī)模的知識表示是自動構(gòu)建的,比如知識圖譜,是在互聯(lián)網(wǎng)和大數(shù)據(jù)的背景自動構(gòu)造語義網(wǎng)絡(luò),比如DBpedia就是基于維基百科網(wǎng)站資料構(gòu)建的知識圖譜。

是否可以從公開的書籍和文獻構(gòu)建地質(zhì)建模領(lǐng)域的后其他某個特定領(lǐng)域的知識呢。應(yīng)該是可以的。因為它不需要大量的樣本,只需要把已經(jīng)有的知識抽屜出來,按照計算機能理解的方式存儲,用于后續(xù)計算和推理。假設(shè),基于大量文字和圖片材料的學習,獲取了這個領(lǐng)域比較完備的知識,具備了專家級別的專業(yè)知識,把它假設(shè)為一個機器人,問題什么專業(yè)問題都能準確回答。但是,如何把這些知識應(yīng)用實際的地質(zhì)建模仍是個問題。不過,可以肯定的是,真正把這樣基于符號的人工智能用于地質(zhì)建模,必要有大量的實際數(shù)據(jù)作為驗證。

目前有很多人都在關(guān)注這個領(lǐng)域,以上是我最近的一些思考,歡迎一起探討。

來源:https://www./content-4-400251.html

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多