|
來源: 人機(jī)與認(rèn)知實(shí)驗(yàn)室 概要:醫(yī)學(xué)知識(shí)圖譜是實(shí)現(xiàn)智慧醫(yī)療的基石,有望帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。 摘要:醫(yī)學(xué)知識(shí)圖譜是實(shí)現(xiàn)智慧醫(yī)療的基石,有望帶來更高效精準(zhǔn)的醫(yī)療服務(wù)。然而,現(xiàn)有知識(shí)圖 譜構(gòu)建技術(shù)在醫(yī)學(xué)領(lǐng)域中普遍存在效率低,限制多,拓展性差等問題。針對(duì)醫(yī)療數(shù)據(jù)跨語種,專業(yè)性強(qiáng),結(jié)構(gòu)復(fù)雜等特點(diǎn),對(duì)構(gòu)建醫(yī)學(xué)知識(shí)圖譜的關(guān)鍵技術(shù)進(jìn)行了自底向上的全面解析,涵蓋了醫(yī)學(xué)知識(shí)表示、抽取、融合和推理以及質(zhì)量評(píng)估五部分內(nèi)容。此外,還介紹了醫(yī)學(xué)知識(shí)圖譜在信息檢索、知識(shí)問答、智能診斷等醫(yī)療服務(wù)中的應(yīng)用現(xiàn)狀。最后,結(jié)合當(dāng)前醫(yī)學(xué)知 識(shí)圖譜構(gòu)建技術(shù)面臨的重大挑戰(zhàn)和關(guān)鍵問題,對(duì)其發(fā)展前景進(jìn)行了展望。 關(guān)鍵詞:知識(shí)圖譜;知識(shí)獲??;知識(shí)融合;知識(shí)推理;自然語言處理 引言 自 1998 年萬維網(wǎng)之父 Tim Berners-Lee 提出語義網(wǎng),人們不斷在網(wǎng)絡(luò)等電子載體上表達(dá)和修正對(duì)客觀世界的理解,形成 了一個(gè)概念標(biāo)準(zhǔn)化的過程,同時(shí)隨著鏈接開放數(shù)據(jù) (Linked Open Data)的規(guī)模激增,互聯(lián)網(wǎng)上散落了越來越多的知識(shí)元數(shù)據(jù)。 知識(shí)圖譜就是在這樣的大數(shù)據(jù)背景下產(chǎn)生的一種知識(shí)表示和管理的方式,強(qiáng)調(diào)語義檢索能力。近年來,在人工智能的蓬勃發(fā)展下,知識(shí)圖譜涉及到的知識(shí)抽取、表示、融合、推理、問答等關(guān)鍵問題得到一定程度的解決和突破,知識(shí)圖譜成為知識(shí)服務(wù)領(lǐng)域的一個(gè)新熱點(diǎn),受到國內(nèi)外學(xué)者和工業(yè)界廣泛關(guān)注。 知識(shí)圖譜的前身是語義網(wǎng),它吸收了語義網(wǎng)、本體在知識(shí)組織和表達(dá)方面的理念,使得知識(shí)更易于在計(jì)算機(jī)之間和計(jì)算機(jī)與人之間交換、流通和加工。具體來說,一個(gè)知識(shí)圖譜由模式圖、數(shù)據(jù)圖及兩者之間的關(guān)系組成:模式圖對(duì)人類知識(shí)領(lǐng)域的概念層面進(jìn)行描述,強(qiáng)調(diào)概念及概念關(guān)系的形式化表達(dá),模 式圖中節(jié)點(diǎn)是概念實(shí)體,邊是概念間的語義關(guān)系,如 part-of;數(shù)據(jù)圖對(duì)物理世界層面進(jìn)行描述,強(qiáng)調(diào)一系列客觀事實(shí)。數(shù)據(jù)圖中的節(jié)點(diǎn)有兩類,一是模式圖中的概念實(shí)體,二是描述性字符串,數(shù)據(jù)圖中的邊是具體事實(shí)的語義描述;模式圖和數(shù)據(jù)圖之間的關(guān)系指數(shù)據(jù)圖的實(shí)例與模式圖的概念之間的對(duì)應(yīng),或者說模式圖是數(shù)據(jù)圖的模具。 著名的通用知識(shí)圖譜中有,谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等,它們具有規(guī)模大、領(lǐng)域?qū)?,包含大量常識(shí)等特點(diǎn)。目前,醫(yī)學(xué)是知識(shí)圖譜應(yīng)用最 廣的垂直領(lǐng)域之一,如上海曙光醫(yī)院構(gòu)建的中醫(yī)藥知識(shí)圖譜、本體醫(yī)療知識(shí)庫 SNOMED-CT,IBM Watson Health等應(yīng)用近兩年也開始進(jìn)入人們視線。 知識(shí)圖譜是智能大數(shù)據(jù)的前沿研究問題,它以獨(dú)有的技術(shù)優(yōu)勢(shì)順應(yīng)了信息化時(shí)代的發(fā)展,比如漸增式的數(shù)據(jù)模式設(shè)計(jì);良好的數(shù)據(jù)集成;現(xiàn)有 RDF、OWL等標(biāo)準(zhǔn)支持;語義搜索和知識(shí)推理能力等。在醫(yī)學(xué)領(lǐng)域,隨著區(qū)域衛(wèi)生信息化及醫(yī)療信息系統(tǒng)的發(fā)展,積累了海量的醫(yī)學(xué)數(shù)據(jù)。如何從這些數(shù)據(jù)中提煉信息,并加以管理、共享及應(yīng)用,是推進(jìn)醫(yī)學(xué)智能化的關(guān)鍵問題,是醫(yī)學(xué)知識(shí)檢索、臨床診斷、醫(yī)療質(zhì)量管理、電子病歷 及健康檔案智能化處理的基礎(chǔ)。 本文首先介紹了醫(yī)學(xué)知識(shí)圖譜的構(gòu)建技術(shù),主要涉及到醫(yī)學(xué)知識(shí)表示;醫(yī)學(xué)知識(shí)抽取,包括實(shí)體、關(guān)系、屬性的抽??;醫(yī)學(xué)知識(shí)融合;醫(yī)學(xué)知識(shí)推理和質(zhì)量評(píng)估五個(gè)部分。然后介紹了基于醫(yī)學(xué)知識(shí)圖譜的包括檢索、問答、決策等的應(yīng)用現(xiàn)狀。最后對(duì)醫(yī)學(xué)知識(shí)圖譜的研究、應(yīng)用重點(diǎn),面臨的挑戰(zhàn)以及未來 的發(fā)展趨勢(shì)進(jìn)行了展望。 1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建 本文將醫(yī)學(xué)知識(shí)圖譜構(gòu)建技術(shù)歸納為五部分,即醫(yī)學(xué)知識(shí)的表示、抽取、融合、推理以及質(zhì)量評(píng)估。通過從大量的結(jié)構(gòu)化或非結(jié)構(gòu)化的醫(yī)學(xué)數(shù)據(jù)中提取出實(shí)體、關(guān)系、屬性等知識(shí)圖譜的組成元素,選擇合理高效的方式存入知識(shí)庫。醫(yī)學(xué)知識(shí)融合對(duì)醫(yī)學(xué)知識(shí)庫內(nèi)容進(jìn)行消歧和鏈接,增強(qiáng)知識(shí)庫內(nèi)部的邏輯性和表達(dá)能力,并通過人工或自動(dòng)的方式為醫(yī)學(xué)知識(shí)圖譜更新舊知識(shí)或補(bǔ)充新知識(shí)。借助知識(shí)推理,推出缺失事實(shí),自動(dòng)完成疾病診斷與治療。質(zhì)量評(píng)估則是保障數(shù)據(jù)的重要手段,提高醫(yī)學(xué)知識(shí)圖譜的可信度和準(zhǔn)確度。 1.1 醫(yī)學(xué)知識(shí)表示 知識(shí)表示是為描述世界所做的一組約定,是知識(shí)符號(hào)化、 形式化、模式化的過程,主要研究計(jì)算機(jī)存儲(chǔ)知識(shí)的方法, 其表示方式影響系統(tǒng)的知識(shí)獲取、存儲(chǔ)及運(yùn)用的效率。然而醫(yī)學(xué)數(shù)據(jù)種類繁雜,存儲(chǔ)方式不一,電子病歷格式和標(biāo)準(zhǔn)不同,經(jīng)常涉及交叉領(lǐng)域等特點(diǎn),導(dǎo)致醫(yī)學(xué)領(lǐng)域與其他領(lǐng)域在知識(shí)表示方面有所差異,同時(shí)也給醫(yī)學(xué)領(lǐng)域的知識(shí)表示帶來極大的挑戰(zhàn)。 早期醫(yī)療知識(shí)庫運(yùn)用的知識(shí)表示方法有:謂詞邏輯表示法,產(chǎn)生式表示法,框架表示法,語義網(wǎng)表示法等等。比如, SNOMED-CT,早期的 MYCIN 系統(tǒng),大腸桿菌數(shù)據(jù)庫 EcoCyc等。隨著知識(shí)圖譜中知識(shí)增長、關(guān)系復(fù)雜化,這些方法由于表示能力有限且缺乏靈活性,不再作為主要的知識(shí)表示方法,更多是作為醫(yī)學(xué)知識(shí)表示的輔助或補(bǔ)充。 本體表示法以網(wǎng)絡(luò)的形式表示知識(shí),即以(實(shí)體 1,關(guān)系, 實(shí)體 2)三元組來表示相關(guān)聯(lián)的兩個(gè)節(jié)點(diǎn)(實(shí)體),在知識(shí)圖譜提出之后逐漸得到認(rèn)可。它借鑒了語義網(wǎng)表示法但又有所區(qū)別:本體關(guān)注的是實(shí)體固有特征,比后者更聚焦,更深入,因而也具有更大的發(fā)展?jié)摿Α6倔w的描述語言也多種多樣:主 要有RDF和RDF-S、DAML、OWL等。使用本體表示醫(yī)學(xué)術(shù)語可以提升數(shù)據(jù)整合能力:建立強(qiáng)大、可互操作的醫(yī)療信息系統(tǒng);滿足重用共享傳輸醫(yī)療數(shù)據(jù)的需求;提供基于不同語義標(biāo)準(zhǔn)的統(tǒng)計(jì)聚合。醫(yī)學(xué)領(lǐng)域本體的構(gòu)建,需要深入分析醫(yī)學(xué)術(shù)語的結(jié)構(gòu)和概念,才能將晦澀甚至是跨語言的醫(yī)學(xué)知識(shí)有效地表達(dá)出來。目前的醫(yī)學(xué)知識(shí)本體庫有:醫(yī)學(xué)概念知識(shí)庫LinkBase,TAMBIS本體庫(TaO)等等。 1.2 醫(yī)學(xué)知識(shí)抽取 醫(yī)學(xué)知識(shí)圖譜的構(gòu)建主要是從非結(jié)構(gòu)化數(shù)據(jù)中人工或自動(dòng)地提取實(shí)體、關(guān)系和屬性。人工提取是通過專家依據(jù)一定規(guī)則收集并整理相關(guān)信息,提取知識(shí)。目前通過人工構(gòu)建的醫(yī)學(xué)知識(shí)庫包括臨床醫(yī)學(xué)知識(shí)庫、SNOMED-CT、ICD-10 等。自動(dòng)提取則是利用機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)挖掘等信息抽取技術(shù),從數(shù)據(jù)源中自動(dòng)提取出知識(shí)圖譜的基本組成元素。自動(dòng)構(gòu)建醫(yī) 學(xué)知識(shí)庫的典型例子有一體化醫(yī)學(xué)語言系統(tǒng) UMLS。人工提取的代價(jià)太大,知識(shí)的自動(dòng)提取是目前重點(diǎn)的研究方向,也是將來構(gòu)建知識(shí)圖譜的趨勢(shì)。本節(jié)主要介紹如何自動(dòng)從數(shù)據(jù)源中抽取知識(shí)和信息,包括實(shí)體、關(guān)系和屬性抽取。 1.2.1 實(shí)體抽取 識(shí)別文本中的生物醫(yī)學(xué)實(shí)體,其目的在于通過識(shí)別關(guān)鍵概念進(jìn)一步提取關(guān)系和其他信息,并將識(shí)別的概念以標(biāo)準(zhǔn)化的形式表示出來。醫(yī)學(xué)領(lǐng)域的實(shí)體抽取是從醫(yī)學(xué)數(shù)據(jù)源中提取出特定類型的命名實(shí)體。本節(jié)將醫(yī)學(xué)實(shí)體的抽取方法歸納為三類:基于醫(yī)學(xué)詞典及規(guī)則的方法、基于醫(yī)學(xué)數(shù)據(jù)源的統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法以及深度學(xué)習(xí)方法。 1)基于醫(yī)學(xué)詞典及規(guī)則的方法 該方法通過人工定義規(guī)則和模式匹配生成詞典或使用現(xiàn)有醫(yī)學(xué)詞典從語料中抽取醫(yī)學(xué)實(shí)體,該方法是具有挑戰(zhàn)性的。首先,目前沒有完整的字典囊括所有類型的生物命名實(shí)體,所以簡(jiǎn)單的文本匹配算法是不足以應(yīng)對(duì)實(shí)體識(shí)別的。其次,相同的單詞或短語其意義可根據(jù)上下文的改變而指代不同的物體(如, 2)基于醫(yī)學(xué)數(shù)據(jù)源和數(shù)學(xué)模型的機(jī)器學(xué)習(xí)方法 該方法通過使用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法,結(jié)合醫(yī)學(xué)數(shù)據(jù)源的特點(diǎn)訓(xùn)練模型,進(jìn)行實(shí)體識(shí)別。在英文醫(yī)學(xué)實(shí)體抽取方面, 最具代表性的標(biāo)注語料是 I2B2 2010發(fā)布的英文電子病歷標(biāo)注語料。另外,還有 SemEval、NTCIR等評(píng)測(cè),以及 NCBI語料庫等,都提供了英文醫(yī)學(xué)實(shí)體標(biāo)注數(shù)據(jù)。 目前常用方法有隱馬爾可夫模型(HMM),條件隨機(jī)場(chǎng)模 型(CRF),支持向量機(jī)模型(SVM)等。Kazama 等人使用 SVM模型進(jìn)行生物醫(yī)學(xué)命名實(shí)體識(shí)別,引入了 POS,詞緩存,無監(jiān)督訓(xùn)練得到的 HMM狀態(tài)等特征。該方法在 GENIA 語料庫中準(zhǔn)確率高于最大熵標(biāo)記方法,并能較高效地應(yīng)用于大規(guī)模語料集。Zhou等人通過一系列特征訓(xùn)練 HMM 模型,包括詞的構(gòu)成特征,形態(tài)特征,POS,語義觸發(fā),文獻(xiàn)內(nèi)名稱別名等。其識(shí)別準(zhǔn)確率達(dá)66.5%,在 GENIA語料庫中的召回率達(dá)66.6%。 綜合以上方法,Chen 和 Friedman利用MEDLEE系統(tǒng)來識(shí)別與生物醫(yī)學(xué)文本中與表型信息相對(duì)應(yīng)的短語。該系統(tǒng)使用自然語言技術(shù)來識(shí)別期刊文章摘要中存在的表型短語。生物醫(yī)學(xué)的實(shí)體識(shí)別常??墒褂幂^小的表型相關(guān)術(shù)語的知識(shí)庫。Chen 和 Friedman自動(dòng)導(dǎo)入與語義類別相關(guān)的數(shù)千個(gè) UMLS 術(shù)語,如細(xì)胞體功能和細(xì)胞功能障礙,以及哺乳動(dòng)物本體中的幾百個(gè)術(shù)語;并手動(dòng)添加了幾百個(gè)術(shù)語。實(shí)驗(yàn)結(jié)果表明,其實(shí)體識(shí)別準(zhǔn) 確率達(dá) 64.0%,召回率達(dá) 77.1%。雖然結(jié)果不高,但為之后的研究人員提供了一條可行的思路。 在醫(yī)學(xué)領(lǐng)域,命名實(shí)體識(shí)別的痛點(diǎn)在于數(shù)據(jù)質(zhì)量的良莠不齊以及人工標(biāo)注的專業(yè)性要求高。目前有專門研究如何降低對(duì)于數(shù)據(jù)標(biāo)注依賴的研究,其原理主要是利用海量未標(biāo)注數(shù)據(jù)持續(xù)提升模型性能,從小樣本中進(jìn)行學(xué)習(xí),自我探索逐步學(xué)習(xí)新知識(shí),形成一個(gè)交互學(xué)習(xí)過程。 3)深度學(xué)習(xí)方法 深度學(xué)習(xí)近年來開始被廣泛應(yīng)用于命名實(shí)體識(shí)別,最具代表性的模型是2011年Collobert提出的一個(gè)深層神經(jīng)網(wǎng)絡(luò)模型,其效果和性能超過了傳統(tǒng)算法。Sahu等人所提出的 CNN 與 RNN 級(jí)聯(lián)的方法生成詞嵌入特征,其結(jié)果優(yōu)于目前最好的算法且不需要過多的特征工程。 在醫(yī)學(xué)領(lǐng)域,We 等人基于CRF和雙向RNN生成特征, 再使用SVM 進(jìn)行疾病命名實(shí)體識(shí)別。目前醫(yī)學(xué)信息命名實(shí)體識(shí)別任務(wù)中最主流的深度學(xué)習(xí)模型是 BiLSTM-CRF 模型,Jagannatha等人對(duì)比了 CRF,BiLSTM,BiLSTM-CRF 三種模型,以及一些它們的改進(jìn)模型,在英文電子病歷命名實(shí)體識(shí)別的效果,實(shí)驗(yàn)結(jié)果表明所有基于 LSTM 的模型都比 CRF效果更好,并且 BiLSTM 結(jié)合 CRF 模型能夠進(jìn)一步提高評(píng)測(cè)結(jié)果 2%-5%的準(zhǔn)確率。 1.2.2 實(shí)體抽取 本文將醫(yī)學(xué)實(shí)體關(guān)系抽取歸結(jié)為兩類: a)同類型醫(yī)學(xué)實(shí)體層級(jí)關(guān)系抽取,如疾病的“腸胃病-慢性胃炎”等;b)不同類型關(guān)系抽取,如“疾病-癥狀”等。 1)同類型醫(yī)學(xué)實(shí)體層級(jí)關(guān)系抽取 同類型醫(yī)學(xué)實(shí)體層級(jí)關(guān)系相對(duì)較為單一,主要是 is-a 和 part-of關(guān)系。由于醫(yī)學(xué)有其嚴(yán)謹(jǐn)?shù)膶W(xué)科體系和行業(yè)規(guī)范,因此此類關(guān)系往往在醫(yī)學(xué)詞典、百科、信息標(biāo)準(zhǔn)中進(jìn)行。 ICD-10、SNOMED等醫(yī)療詞典或醫(yī)療數(shù)據(jù)庫重點(diǎn)關(guān)注醫(yī)學(xué)專業(yè)術(shù)語、受限詞匯的分類和概念標(biāo)準(zhǔn)化工作,權(quán)威且涵蓋范圍廣,在數(shù)量和質(zhì)量上都有所保障,被醫(yī)療行業(yè)廣泛認(rèn)可,是抽取層級(jí)間實(shí)體關(guān)系的首選來源。針對(duì)具體的醫(yī)療詞典、知識(shí)庫提供的數(shù)據(jù)格式和開放 API 接口,可通過爬蟲、正則表達(dá)式、D2R映射等技術(shù)從中抽取分層結(jié)構(gòu),抽取三元組來匹配、 添加上下位關(guān)系。 2)不同類型醫(yī)學(xué)實(shí)體關(guān)系抽取 不同類型醫(yī)學(xué)實(shí)體間的語義關(guān)系識(shí)別大致基于兩大不同數(shù)據(jù)源而實(shí)現(xiàn)。一是百科或其他結(jié)構(gòu)化數(shù)據(jù)源,如 Medline,UMLS 等;二是半結(jié)構(gòu)化的電子病歷。 醫(yī)學(xué)實(shí)體類型相對(duì)有限(主要是疾病、癥狀、治療、藥品等),目前通常在兩個(gè)實(shí)體間預(yù)定義好要抽取的關(guān)系類型,再將抽取任務(wù)轉(zhuǎn)換為分類問題來處理。如何預(yù)定義實(shí)體關(guān)系目前尚未有統(tǒng)一的標(biāo)準(zhǔn),這取決于醫(yī)學(xué)知識(shí)圖譜構(gòu)建過程中模式圖的設(shè)置、實(shí)體識(shí)別情況、語料來源、構(gòu)建目的及應(yīng)用場(chǎng)景等,如 在 I2B2 2010 評(píng)測(cè)中,將電子病歷中的實(shí)體關(guān)系分成了醫(yī)療問題與醫(yī)療問題、醫(yī)療問題與治療、醫(yī)療問題與檢查三類。 近幾年,Uzuner 團(tuán)隊(duì)在句子層面抽取了六類醫(yī)療實(shí)體關(guān)系,使用實(shí)體順序和距離、鏈接語法和詞匯特征來訓(xùn)練 6 個(gè) SVM 分類器,通過對(duì)比實(shí)驗(yàn),指出詞匯特征在實(shí)體關(guān)系識(shí)別中 的重要作用。在此基礎(chǔ)上,基于Medline 摘要,F(xiàn)runza 等抽取了疾病、治療間的三種關(guān)系,并引入 UMLS 生物和醫(yī)療實(shí)體特征,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。而 Abacha 等在同樣的任 務(wù)中使用人工模板和 SVM 的混合模型,取得了 94.07%的平均 F值。該研究指出,在樣本數(shù)較少時(shí),模板匹配方法起主要作用,而面向海量樣本時(shí)則 SVM 起主要作用。
此外,在關(guān)系識(shí)別的分類方法對(duì)比研究中,Bruijn 等人在 I2B2 2010 評(píng)測(cè)中對(duì)比研究了有監(jiān)督分類和基于 Self-training 的半監(jiān)督分類的表現(xiàn),表明了UMLS、依存句法分析結(jié)果和未標(biāo)記數(shù)據(jù)對(duì)關(guān)系識(shí)別有著顯著影響。除了預(yù)定義關(guān)系然后轉(zhuǎn)換為分類任務(wù)來處理的方法,還有少量研究采用了模板匹配、統(tǒng)計(jì)共現(xiàn)等方法來抽取關(guān)系。如在 Medline 摘要中通過統(tǒng)計(jì)基因名的共現(xiàn)來提取關(guān)系,并根據(jù)共現(xiàn)矩陣生成了關(guān)系圖,或在 Medline 摘要中通過語法依賴樹進(jìn)行圖的模式匹配,進(jìn)而抽取因果關(guān)系。 1.2.3 屬性抽取 屬性抽取是指對(duì)屬性和屬性值對(duì)(attribute-value pair, AVP)的抽取,其中屬性的抽取是指為醫(yī)學(xué)實(shí)體構(gòu)造屬性列表,如藥品的屬性包括適應(yīng)癥、禁忌癥等。屬性值的抽取是指為各實(shí)體附加具體的屬性值,如阿莫西林是青霉素過敏者禁用。常見的抽取方法包括從開放鏈接數(shù)據(jù)提取、從結(jié)構(gòu)化數(shù)據(jù)庫提取、從百科類站點(diǎn)提取、從垂直網(wǎng)站進(jìn)行包裝器歸納、以及利用模式匹配從查詢?nèi)罩局刑崛〉?。?duì)于醫(yī)學(xué)知識(shí)圖譜來說,主要通過上文提及的醫(yī)學(xué)詞典和主流醫(yī)學(xué)站點(diǎn)來進(jìn)行。值得一提的是,前者關(guān)于屬性和屬性值對(duì)的描述相對(duì)比較稀疏(特別對(duì)于中文領(lǐng)域),因此需從主流醫(yī)學(xué)站點(diǎn)進(jìn)一步抽取整合。 對(duì)于 AVP 結(jié)構(gòu)化程度比較高的網(wǎng)站,如維基百科、A+醫(yī) 學(xué)百科6等,有規(guī)整的信息框(InfoBox),可以方便地爬取識(shí)別InfoBox 部分,直接提取該實(shí)體對(duì)應(yīng)的屬性名和屬性值,置信度高,但規(guī)模較小。而對(duì)于更多形式各異、半結(jié)構(gòu)化的醫(yī)藥站點(diǎn)和垂直文本來說,通常是構(gòu)建面向站點(diǎn)的包裝器,從待抽取 站點(diǎn)采樣并標(biāo)注幾個(gè)典型的詳細(xì)頁面(Detailed Pages),利用這些頁面通過模式學(xué)習(xí)自動(dòng)構(gòu)建出一個(gè)或多個(gè)類 Xpath 表示的模式,然后將其應(yīng)用在該站點(diǎn)的其他詳細(xì)頁面中從而實(shí)現(xiàn)自動(dòng)化 的 AVP 抽取。 1.3 醫(yī)學(xué)知識(shí)融合 知識(shí)融合是高層次的知識(shí)組織,使不同來源的知識(shí)在同一框架規(guī)范下進(jìn)行數(shù)據(jù)整合、消歧、加工、推理驗(yàn)證、更新等 步驟7,目的是解決知識(shí)復(fù)用的問題,增強(qiáng)知識(shí)庫內(nèi)部的邏輯性和表達(dá)能力。針對(duì)知識(shí)圖譜中不同粒度的知識(shí)對(duì)象,知識(shí)融合 可細(xì)分為實(shí)體對(duì)齊、知識(shí)庫的融合等。 1.3.1 實(shí)體對(duì)齊 醫(yī)療知識(shí)圖譜中知識(shí)來源的多樣性導(dǎo)致了知識(shí)重復(fù)、知識(shí)質(zhì)量良莠不齊、知識(shí)間關(guān)聯(lián)不夠明確等問題。 醫(yī)學(xué)實(shí)體在不同的數(shù)據(jù)源中存在嚴(yán)重的多元指代問題,例如阿奇霉素在百度百科中被稱為希舒美,在 A+醫(yī)學(xué)百科中別名有阿齊霉素、阿奇紅霉素、疊氮紅霉素等,商品名有泰力特、希舒美、舒美特等。 因此實(shí)體對(duì)齊是醫(yī)學(xué)知識(shí)融合中非常重要的一步。實(shí)體對(duì)齊是判斷多源異構(gòu)數(shù)據(jù)中的實(shí)體是否指向真實(shí)世界同一對(duì)象的過程。 集體實(shí)體對(duì)齊在成對(duì)實(shí)體對(duì)齊的基礎(chǔ)上在計(jì)算實(shí)體相似度時(shí)加入了實(shí)體間的相互關(guān)系,分為局部集體實(shí)體對(duì)齊與全局集體實(shí)體對(duì)齊。前者典型算法是使用向量空間模型和余弦相似度計(jì)算實(shí)體相似性,準(zhǔn)確率不高,但召回率和運(yùn)行速度比較可觀。后者通過不同匹配決策之間的相互影響來調(diào)整實(shí)體間的相似度,又分為基于相似性傳播和基于概率模型的集體實(shí)體對(duì)齊方法?;谙嗨菩詡鞑サ姆椒ㄍㄟ^初始匹配以“bootstrapping” 方式迭代地產(chǎn)生新的匹配[。Lacoste-Julien 等人在此基礎(chǔ)上提出的 SiGMa 算法更適合大規(guī)模知識(shí)庫,但需要一定的人工干預(yù)?;诟怕誓P偷姆椒ㄍㄟ^為實(shí)體匹配關(guān)系和決策建立復(fù)雜的概率模型,包括關(guān)系貝葉斯網(wǎng)絡(luò)模型、LDA 分配模型、CRF 模型和 Markov邏輯網(wǎng)模型等,可以提高匹配效果,但效率還有待提高。 當(dāng)來自不同知識(shí)源的數(shù)據(jù)出現(xiàn)數(shù)據(jù)沖突時(shí),需要考慮知識(shí)源的可靠性以及不同信息在各知識(shí)源中出現(xiàn)的頻度等因素。阮彤等人]在構(gòu)建中醫(yī)藥知識(shí)圖譜時(shí)對(duì)數(shù)據(jù)源的可信度進(jìn)行評(píng)分,結(jié)合數(shù)據(jù)在不同來源中出現(xiàn)的次數(shù),對(duì)數(shù)據(jù)項(xiàng)進(jìn)行排序, 并補(bǔ)充到相應(yīng)的屬性值字段中。 隨著知識(shí)庫規(guī)模擴(kuò)大和實(shí)體數(shù)量的增加,知識(shí)庫中的實(shí)體對(duì)齊越來越受到重視,如何準(zhǔn)確高效地實(shí)體對(duì)齊是未來知識(shí)融 合的研究重點(diǎn)之一。 1.3.2 知識(shí)庫融合 構(gòu)建知識(shí)庫時(shí)需求和設(shè)計(jì)理念不同會(huì)導(dǎo)致知識(shí)庫中數(shù)據(jù)的多樣性和異構(gòu)性。對(duì)于龐雜的醫(yī)療知識(shí)來說,當(dāng)前多數(shù)知識(shí)庫都是針對(duì)某個(gè)科室或者某類疾病或藥物來構(gòu)建的,比如脾胃病 知識(shí)庫[60]、中醫(yī)藥知識(shí)圖譜等,若要得到更完善的醫(yī)療知識(shí)圖譜,需要對(duì)不同的醫(yī)療知識(shí)庫進(jìn)行融合以及將尚未涵蓋的知識(shí)和不斷產(chǎn)生的新知識(shí)融合到已有的知識(shí)圖譜中。醫(yī)療知識(shí)圖譜的構(gòu)建是一個(gè)不斷迭代更新的過程。 知識(shí)庫融合的研究工作始于“本體匹配”,初期針對(duì)本體類別的語義相似性進(jìn)行匹配。隨著知識(shí)庫規(guī)模擴(kuò)大和結(jié)構(gòu)復(fù)雜化,類別、屬性以及實(shí)體和它們之間的相互關(guān)系等也成為考慮的因素。Suchanek 等人提出的基于概率的知識(shí)融合算法PAIRS以兩個(gè)知識(shí)庫作為輸入,能夠高效地跨本體同時(shí)對(duì)齊類別、實(shí)例、屬性和關(guān)系。但 PARIS 需要一定的人工參與。由于人類的精力和認(rèn)知有限,自動(dòng)地從 Web 中獲取知識(shí)并進(jìn)行融合十分必要。Dong 等人提出了將以消除歧義的三元組的形式從整個(gè)網(wǎng)絡(luò)中提取事實(shí)與使用 PRA 和神經(jīng)網(wǎng)絡(luò)模型兩種方法從 Freebase 圖得到的先驗(yàn)知識(shí)融合在一起的知識(shí)融合方法, 可達(dá)到自動(dòng)構(gòu)建 Web 規(guī)模的概率知識(shí)庫的水準(zhǔn),提升了效率。 在醫(yī)療領(lǐng)域,Dieng-Kuntz 等人將醫(yī)療數(shù)據(jù)庫轉(zhuǎn)換為醫(yī)療本體,然后對(duì)其他文本語料使用半自動(dòng)的語言工具進(jìn)行語義提取,在人工控制下對(duì)本體進(jìn)行擴(kuò)展和補(bǔ)全,并用啟發(fā)式規(guī)則自動(dòng)建立知識(shí)的概念層次。Baorto 等人將數(shù)據(jù)源添加到臨床信息系統(tǒng)時(shí)先確定數(shù)據(jù)的控制術(shù)語是否已經(jīng)存在,然后將新術(shù)語添加到 MED( Medical Entities Dictionary),同時(shí)建立審計(jì)流程以保證引入數(shù)據(jù)的一致性。 目前醫(yī)療領(lǐng)域知識(shí)圖譜的融合技術(shù)雖有一些有意義的嘗試,但仍需要大量人工干預(yù),高效的知識(shí)融合算法有待進(jìn)一步研究。醫(yī)療領(lǐng)域的知識(shí)圖譜也可以考慮采用眾包的方式進(jìn)行知識(shí)融合。 1.4 醫(yī)學(xué)知識(shí)推理 推理是從已有知識(shí)中挖掘出隱含信息,而知識(shí)推理更注重知識(shí)與方法的選擇與運(yùn)用,盡量減少人工參與,推出缺失事實(shí),完成問題求解。在醫(yī)學(xué)知識(shí)圖譜中,知識(shí)推理幫助醫(yī)生完成病患數(shù)據(jù)搜集、疾病診斷與治療,控制醫(yī)療差錯(cuò)率。然而,即使對(duì)于相同的疾病,醫(yī)生也會(huì)根據(jù)病人狀況作出不同的診斷,即 傳統(tǒng)的知識(shí)推理方法雖在一定程度推動(dòng)醫(yī)療診斷自動(dòng)化進(jìn)程,但是也存在學(xué)習(xí)能力不足,數(shù)據(jù)利用率不高,準(zhǔn)確率待提升等明顯缺陷,遠(yuǎn)未達(dá)到實(shí)際應(yīng)用的要求。面對(duì)日益增長的醫(yī)療數(shù)據(jù),診斷時(shí)不可避免地會(huì)出現(xiàn)信息遺漏,診斷時(shí)間延長等 問題。而人工智能,尤其是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANNs)擁有從海量數(shù)據(jù)挖掘有用信息的天然優(yōu)勢(shì)。 ART-KNN(ART-Kohonen neural network)與 CBR 相結(jié)合可以提高后者在推理故障情況的效率和準(zhǔn)確度。神經(jīng)張量網(wǎng)絡(luò)模型(neural tensor networks)在 FreeBase 等開放本體庫上對(duì)未知關(guān)系推理的準(zhǔn)確率可達(dá) 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知識(shí)庫(PIDD)中使用了遺傳算法 (Genetic Algorithm,GA)和反向傳播網(wǎng)絡(luò)(Back Propatation Network,BPN)的混合模型,診斷準(zhǔn)確率提高 7%左右。 與深度學(xué)習(xí)將知識(shí)圖譜作為數(shù)據(jù)源不同,基于圖的推理則將知識(shí)圖譜視為圖,以實(shí)體為節(jié)點(diǎn),以關(guān)系或?qū)傩詾檫叄藐P(guān)系路徑來找到節(jié)點(diǎn)間的多步路徑,Path Ranking 算法,PTransE就是利用這樣的原理來推斷實(shí)體間的語義關(guān)系。圖數(shù)據(jù)庫使知識(shí)圖譜能以圖的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),與傳統(tǒng)數(shù)據(jù)庫相比,前者在高維度關(guān)聯(lián)查詢的效率明顯提高。然而圖數(shù)據(jù)庫尚未成熟,暫無法完成太復(fù)雜的知識(shí)推理。較為流行的圖 數(shù)據(jù)庫有 Neo4j,Titan,OrientDB和 ArangoDB等。王昊奮等人在醫(yī)療質(zhì)量與患者安全輔助監(jiān)控系統(tǒng)中,就將醫(yī)療本體的數(shù)據(jù)存放在 AllegroGraph 圖數(shù)據(jù)庫中。 與通用知識(shí)圖譜相類似,醫(yī)學(xué)知識(shí)圖譜也還有對(duì)跨知識(shí)庫知識(shí)推理、基于模糊本體的知識(shí)推理等問題的研究。 1.5 質(zhì)量評(píng)估 數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)的運(yùn)用,質(zhì)量評(píng)估是保障數(shù)據(jù)的重要手段,可以量化數(shù)據(jù)質(zhì)量,篩選出置信度高的數(shù)據(jù)。醫(yī)學(xué)診斷對(duì)數(shù)據(jù)和醫(yī)學(xué)知識(shí)圖譜的可信度和準(zhǔn)確度提出了更高的要求。質(zhì)量評(píng)估并不是構(gòu)建醫(yī)療知識(shí)圖譜的最后一步,而是貫穿 在知識(shí)圖譜的整個(gè)生命周期:早在 2013 年本體峰會(huì)(Ontology Summit2013)就對(duì)本體的生命周期的各個(gè)階段所要進(jìn)行的評(píng)估工作做了相關(guān)的說明。 目前,知識(shí)圖譜/本體的評(píng)估方法可分為四大類:基于黃金 標(biāo)準(zhǔn)的方法,基于本體任務(wù)/應(yīng)用的方法,數(shù)據(jù)驅(qū)動(dòng)的方法,和基于指標(biāo)的方法。表 1 對(duì)比了這幾種本體評(píng)估方法。 具體到醫(yī)學(xué)領(lǐng)域,本體評(píng)估方法因應(yīng)用場(chǎng)景而異:Clarke 等人使用基于任務(wù)評(píng)估方法來分析基因本體的從 2004 至 2012 年的性能;Bright 等使用本體設(shè)計(jì)原則和領(lǐng)域?qū)<覍彶橐庖?作為指標(biāo)來評(píng)估本體在抗生素決策支持系統(tǒng)中的效果;Gordon 等通過將電子病歷,診斷案例和臨床實(shí)踐等來構(gòu)造“黃 金標(biāo)準(zhǔn)”來評(píng)估,改進(jìn)傳染疾病本體 BCIDO等。為方便用戶進(jìn)行本體評(píng)估和加快本體評(píng)估自動(dòng)化進(jìn)程,本體評(píng)估工具封裝了評(píng)估方法。不同的工具從不同的視角對(duì)本體的不同指標(biāo)進(jìn)行評(píng)估。針對(duì)評(píng)估的側(cè)重點(diǎn),選擇合適的工具才能對(duì)本體作出 符合應(yīng)用要求的評(píng)估。 比較常用的本體評(píng)估工具有:ODEval,OOPS,OntoManager,Core等。除了醫(yī)學(xué)本體,醫(yī)學(xué)知識(shí)圖譜還涵蓋其他復(fù)雜多樣的信息,因此,質(zhì)量評(píng)估還包括對(duì)數(shù)據(jù)質(zhì)量, 專家信息,知識(shí)庫等方面進(jìn)行評(píng)估。 相比通用領(lǐng)域的知識(shí)圖譜,醫(yī)學(xué)領(lǐng)域的知識(shí)圖譜評(píng)估存在以下特殊性:a)鑒于醫(yī)學(xué)的嚴(yán)謹(jǐn)性,評(píng)估往往綜合多種方法進(jìn)行多角度的評(píng)估,如 Bright 等利用本體設(shè)計(jì)原則和領(lǐng)域?qū)<覍彶閬磉M(jìn)行等級(jí)評(píng)估; b)往往需設(shè)置等級(jí)較高的警告(alerts),如與處方相關(guān)的警報(bào)包括抗生素-微生物不匹配警報(bào)、用藥過敏 警報(bào)、非推薦的經(jīng)驗(yàn)性抗生素治療警報(bào)、治療方案-癥狀間不匹配警報(bào)等;c)除了從形式方面評(píng)價(jià)知識(shí)圖譜以外,也注重于檢驗(yàn)知識(shí)差距,因?yàn)橹R(shí)的全面性和準(zhǔn)確性將直接影響臨床決策支持的置信度。此外,醫(yī)學(xué)知識(shí)圖譜是融合計(jì)算機(jī)科學(xué)等眾多學(xué)科的交叉學(xué)科,評(píng)價(jià)指標(biāo)不能簡(jiǎn)單地照搬某個(gè)的學(xué)科的指標(biāo),而是應(yīng)該綜合考慮眾多因素。知識(shí)圖譜/本體評(píng)估方法如下表所示:
因此,除了借鑒通用知識(shí)圖譜質(zhì)量評(píng)估方法,Ammenwerth E 等人結(jié)合醫(yī)學(xué)本身的特點(diǎn),就評(píng)價(jià)醫(yī)學(xué)知識(shí)圖譜時(shí)面臨的評(píng)價(jià)對(duì)象的復(fù)雜度,評(píng)價(jià)指標(biāo)與利益相關(guān)者的關(guān)系,評(píng)價(jià)動(dòng)機(jī)三 大問題出發(fā),分別提出解決方案。 2 醫(yī)學(xué)知識(shí)圖譜應(yīng)用 2.1 醫(yī)療信息搜索引擎 傳統(tǒng)的醫(yī)療搜索引擎需要對(duì)百億計(jì)的醫(yī)療相關(guān)網(wǎng)頁進(jìn)行檢索、存儲(chǔ)、處理,但難以理解用戶的語義查詢。而基于醫(yī)學(xué)知識(shí)圖譜的搜索,不僅提供用戶網(wǎng)頁間超鏈接的文檔關(guān)系,還包 括不同類型實(shí)體間豐富的語義關(guān)系。 知識(shí)圖譜對(duì)于傳統(tǒng)信息搜索的優(yōu)化主要體現(xiàn)在查詢擴(kuò)展,從知識(shí)圖譜中抽取與查詢相關(guān)的若干實(shí)體及實(shí)體關(guān)系和屬性進(jìn)行擴(kuò)展查詢,以更好的理解用戶的查詢需求。Aronso 等人較早將信息檢索技術(shù)結(jié)合 UMLS 進(jìn)行查詢擴(kuò)展,并應(yīng)用于醫(yī)學(xué)文獻(xiàn)檢索。 Díazgaliano 等人在生物醫(yī)學(xué)信息搜索中加入了醫(yī)學(xué)本體 MeSH來進(jìn)行查詢擴(kuò)展,包含同義、近似同義和密切 相關(guān)概念的實(shí)體和關(guān)系,改進(jìn)了信息檢索的效果。Huang 等人在醫(yī)學(xué)本體的基礎(chǔ)上,使用 LSA 自動(dòng)挖掘?qū)嶓w間的語義關(guān)系,如藥物誘導(dǎo)疾病關(guān)系、藥物間相互作用關(guān)系等,對(duì)實(shí)體關(guān)系、實(shí)體-實(shí)體的查詢進(jìn)行了擴(kuò)展。中國中醫(yī)科學(xué)院的賈李蓉 等于 2002 年開始研制中醫(yī)藥學(xué)語言系統(tǒng),構(gòu)建了包含12萬多個(gè)概念、60余萬術(shù)語以及127余萬語義關(guān)系的中醫(yī)藥知識(shí)圖譜。它通過在檢索系統(tǒng)中嵌入“知識(shí)卡片”以及一個(gè)“知識(shí)地圖”展示系統(tǒng),將中醫(yī)領(lǐng)域概念可視化,用戶可以選擇其中 的概念開始構(gòu)造查詢或搜索。 目前,國外典型的醫(yī)療專用搜索引擎有 WebMd8、 OmniMedicalSearch 9 、 Healthline10等 。 其 中 WebMd 和 OmniMedicalSearch 分別屬于全文索引和目錄索引類型的傳統(tǒng) 搜索引擎,Healthline 是一個(gè)基于知識(shí)庫的醫(yī)學(xué)信息搜索引擎, 其知識(shí)庫涵蓋超 850,000 項(xiàng)醫(yī)療元數(shù)據(jù)和 50,000 條相互關(guān)聯(lián) 的概念。Google 率先提出將知識(shí)圖譜應(yīng)用于搜索,在醫(yī)療搜索 應(yīng)用上,當(dāng)用戶搜索疾病或癥狀時(shí),Google 提供超過 400 種健康狀況的數(shù)據(jù),通過一張信息卡片,給出典型癥狀以及如是否嚴(yán)重、是否具有傳染性、影響哪些年齡段的人等細(xì)節(jié)信息。而國內(nèi)主流醫(yī)療搜索引擎有搜狗名醫(yī)、360良醫(yī),這兩者都是結(jié)合了元搜索索引方式和知識(shí)庫的搜索引擎,聚合權(quán)威的知識(shí)、醫(yī)療、學(xué)術(shù)網(wǎng)站,為用戶提供包括維基百科、知乎問答、國際 前沿學(xué)術(shù)論文等權(quán)威、真實(shí)內(nèi)容。 2.2 醫(yī)療問答系統(tǒng) 問答系統(tǒng)也是知識(shí)圖譜的典型應(yīng)用場(chǎng)景。目前在基于知識(shí)圖譜的問答系統(tǒng)中采用的方法主要包括:基于信息提取的方法,利用問句信息結(jié)合知識(shí)庫資源獲取候選答案;基于語義解析的方法,將自然語言問句解析成一種邏輯表達(dá)形式,通過這種結(jié)構(gòu)化表達(dá)從知識(shí)庫中尋找答案;基于向量空間建模的方法,使用向量空間描述自然語言問句以及知識(shí)圖譜中的實(shí)體和關(guān)系,通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法生成問答模型進(jìn)行回答。 早期的醫(yī)療問答系統(tǒng)的研究主要集中于信息檢索、提取和摘要技術(shù)。知識(shí)圖譜概念的提出,致使問答系統(tǒng)研究熱點(diǎn)轉(zhuǎn)移到基于知識(shí)圖譜的問答系統(tǒng)研究。Terol等人使用了 UMLS 以及 WordNet 兩種知識(shí)庫,設(shè)置了 10 類醫(yī)學(xué)問題類型,利用自然語言處理技術(shù)的應(yīng)用來生成和處理問題的邏輯形式, 從知識(shí)庫中提取答案。Abacha 等人對(duì)比了基于醫(yī)學(xué)本體的 醫(yī)療問答系統(tǒng),結(jié)合醫(yī)學(xué)本體、領(lǐng)域知識(shí),NLP 相關(guān)技術(shù)和語義關(guān)系,實(shí)現(xiàn)了一個(gè)醫(yī)療自動(dòng)問答系統(tǒng)。華東理工大學(xué)阮彤、 王昊奮等人與上海曙光醫(yī)院合作構(gòu)建了包括疾病庫、證庫、 在醫(yī)療垂直領(lǐng)域的問答系統(tǒng)研究中,受限于現(xiàn)有醫(yī)學(xué)知識(shí)圖譜的推理能力,以及醫(yī)學(xué)知識(shí)表示的復(fù)雜性,尚未出現(xiàn)重大的突破。而反觀開放領(lǐng)域,對(duì)特定領(lǐng)域?qū)I(yè)知識(shí)要求不高的情 況下,IBM 的 Watson 系統(tǒng)、微軟的小冰都是融合傳統(tǒng)問答系統(tǒng)和知識(shí)圖譜的成功案例。 2.3 醫(yī)療決策支持系統(tǒng) 借助醫(yī)療知識(shí)圖譜,醫(yī)療決策支持系統(tǒng)可以根據(jù)患者癥狀描述及化驗(yàn)數(shù)據(jù),給出智能診斷、治療方案推薦及轉(zhuǎn)診指南,還可以針對(duì)醫(yī)生的診療方案進(jìn)行分析、查漏補(bǔ)缺,減少甚至避免誤診。 ángel 等人設(shè)計(jì)了一個(gè)本體驅(qū)動(dòng)的,基于邏輯推理和概 率統(tǒng)計(jì)優(yōu)化的醫(yī)學(xué)鑒別診斷系統(tǒng) ODDIN,系統(tǒng)的知識(shí)庫框架包含一個(gè)邏輯規(guī)則知識(shí)庫和一個(gè)醫(yī)學(xué)本體知識(shí)庫,在邏輯規(guī)則知識(shí)庫中,定義了四種邏輯規(guī)則,而醫(yī)學(xué)本體知識(shí)庫則是綜合了 多個(gè)醫(yī)學(xué)本體資源,支持多種本體表示形式,包括 RDF、RDFS、 OWL 和 SPARQL,診斷方法的核心是基于貝葉斯理論進(jìn)行改 進(jìn)。Martnez-Romero 等人[106]設(shè)計(jì)的 iOSC3 系統(tǒng)是一個(gè)基于本體針對(duì)急性心臟病進(jìn)行智能監(jiān)控和診斷的系統(tǒng),該系統(tǒng)分析患 者的狀況并提供最佳治療方案的建議,其知識(shí)庫由 OWL 本體 和表示專家知識(shí)的一組 SWRL 規(guī)則所構(gòu)成。王昊奮、張金康等人通過搜集中文開放鏈接數(shù)據(jù)中的醫(yī)療信息(ICD9、ICD10 等)和主流醫(yī)學(xué)站點(diǎn)中的醫(yī)療知識(shí)(39 健康網(wǎng)、尋醫(yī)問藥等)構(gòu)建了醫(yī)療知識(shí)圖譜,并將其應(yīng)用于上海林康醫(yī)療信息技術(shù)有限公司的醫(yī)療質(zhì)量與患者安全輔助監(jiān)控系統(tǒng)和處方審核智能系統(tǒng)中,前者基于知識(shí)圖譜來進(jìn)行抗生素不合理使用的監(jiān)控、危 將知識(shí)圖譜應(yīng)用于醫(yī)療決策是目前的研究熱點(diǎn)。但是,在實(shí)際應(yīng)用中,主要存在著兩方面的問題:一是缺少完備的全科醫(yī)學(xué)知識(shí)圖譜,二是醫(yī)療決策的可靠性。對(duì)于前者,目前基于知識(shí)圖譜實(shí)際應(yīng)用的醫(yī)療決策系統(tǒng),主要還是針對(duì)于特定疾病類型的決策,無法廣泛應(yīng)用,如 IBM 的 Watson Health 主要面向腫瘤和癌癥的決策支持,基于巨大的知識(shí)庫和強(qiáng)大的認(rèn)知計(jì)算能力,為臨床醫(yī)師提供快速的、個(gè)性化的循證腫瘤治療方案。對(duì)于后者,醫(yī)療決策是直接關(guān)系到使用者的身體健康問題,依靠人工智能進(jìn)行醫(yī)療決策對(duì)結(jié)果的準(zhǔn)確性和可靠性有更高的要求。現(xiàn)階段,基于知識(shí)圖譜的醫(yī)療決策只是扮演著支持和輔助的角色。 3 挑戰(zhàn)及研究展望
1)人工智能 人工智能,尤其是深度學(xué)習(xí)已經(jīng)在計(jì)算機(jī)視覺、語音識(shí)別、機(jī)器翻譯等領(lǐng)域超越了傳統(tǒng)算法,而其在醫(yī)學(xué)領(lǐng)域中的知識(shí)融合與推理等方面的研究潛力還有待挖掘。擁有強(qiáng)大學(xué)習(xí)能力的深度學(xué)習(xí)與有著豐富數(shù)據(jù)儲(chǔ)備的知識(shí)庫相結(jié)合,將逐步擴(kuò)展認(rèn) 知能力,為大規(guī)模知識(shí)圖譜找到更寬廣的應(yīng)用場(chǎng)景。 2)復(fù)雜多樣的數(shù)據(jù)源(跨語言,開放域) 互聯(lián)網(wǎng)和電子病例帶來了醫(yī)療數(shù)據(jù)的爆炸性增長,然而這些數(shù)據(jù)在語種、主題、存儲(chǔ)等方面都存在較大差異。現(xiàn)有的研究成果多集中在特定數(shù)據(jù)集上,普遍存在算法準(zhǔn)確率低、限制條件多、擴(kuò)展性差等問題,同時(shí)知識(shí)復(fù)用、實(shí)體消歧等問題也有待進(jìn)一步研究??缯Z言醫(yī)學(xué)知識(shí)圖譜成為當(dāng)前的研究熱點(diǎn), 我國的研究者更應(yīng)發(fā)揮自身在中文信息處理方面的優(yōu)勢(shì)。 3)眾包技術(shù) 眾包反饋機(jī)制不僅可以有效提高數(shù)據(jù)質(zhì)量,還能作為質(zhì)量評(píng)估的重要補(bǔ)充。眾包平臺(tái)與知識(shí)庫的有機(jī)結(jié)合,能夠修 正機(jī)器無法識(shí)別的錯(cuò)誤,提高知識(shí)圖譜的質(zhì)量與性能。39 健康網(wǎng),尋醫(yī)問藥網(wǎng)的問答區(qū)都有專業(yè)人士在線解答問題;A+醫(yī)百科中的藥物信息由醫(yī)學(xué)研究者共同編輯完成。而另一方面,如何評(píng)估和保障提交結(jié)果的質(zhì)量,也開始受到國內(nèi)外學(xué)者的關(guān) 注。 4)可視化 知識(shí)圖譜可視化的真正意義在于讓人直觀地了解推理的過程與結(jié)果。而醫(yī)學(xué)知識(shí)圖譜可視化站在醫(yī)生或病人的立場(chǎng),尋求最佳的知識(shí)展示方案:病人能夠理解診斷結(jié)果,醫(yī)生能夠利 用知識(shí)圖譜的動(dòng)態(tài)推理過程作出合理診斷。 4 結(jié)束語 隨著醫(yī)療信息化的發(fā)展,醫(yī)學(xué)電子數(shù)據(jù)有了一定的積累。構(gòu)建醫(yī)療領(lǐng)域的知識(shí)圖譜,可以從海量數(shù)據(jù)中提煉出醫(yī)療知識(shí),并合理高效地對(duì)其進(jìn)行管理、共享及應(yīng)用,對(duì)當(dāng)今的醫(yī)療行業(yè)有著重要意義,也是很多企業(yè)和研究機(jī)構(gòu)的研究熱點(diǎn)。本文從醫(yī)療知識(shí)圖譜的構(gòu)建與應(yīng)用角度,綜述了醫(yī)療知識(shí)圖譜的相關(guān) 醫(yī)學(xué)知識(shí)圖譜將知識(shí)圖譜與醫(yī)學(xué)知識(shí)進(jìn)行結(jié)合,定會(huì)推進(jìn)醫(yī)學(xué)數(shù)據(jù)的自動(dòng)化與智能化處理,為醫(yī)療行業(yè)帶來新的發(fā)展契機(jī)。雖然目前對(duì)于醫(yī)療知識(shí)圖譜的研究工作有了很多很有意義的嘗試,但總的來說還不夠完善和深入,需要更進(jìn)一步的研究。希望本文能夠?yàn)獒t(yī)療知識(shí)圖譜在國內(nèi)的研究提供一些幫助與啟發(fā)。 |
|
|