|
有人這樣分類目前的人工智能:感知智能、運(yùn)動(dòng)智能、認(rèn)知智能。感知智能是類似于人臉識(shí)別、圖像識(shí)別這一類能夠識(shí)別處理外界信息的技術(shù);運(yùn)動(dòng)智能是機(jī)器人要操縱一個(gè)機(jī)器,能夠根據(jù)輸入做出相應(yīng)的動(dòng)作處理,而第三類認(rèn)知智能更多的涉及到理解問題,用語言表達(dá)問題,做出長(zhǎng)遠(yuǎn)的規(guī)劃,做出決策。 在這三類智能里面,最復(fù)雜的也是人類所特有的認(rèn)知智能,離不開自然語言處理技術(shù)的支持。 基于深層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法從根本上改變了自然語言處理技術(shù)的面貌,把自然語言處理問題的定義和求解從離散的符號(hào)域搬到了連續(xù)的數(shù)值域,導(dǎo)致整個(gè)問題的定義和所使用的數(shù)學(xué)工具與以前完全不同,極大地促進(jìn)了自然語言處理研究的發(fā)展。 在深度學(xué)習(xí)技術(shù)引入自然語言處理之前,自然語言處理所使用的數(shù)學(xué)工具跟語音、圖像、視頻處理所使用的數(shù)學(xué)工具截然不同,這些不同模態(tài)之間的信息流動(dòng)存在巨大的壁壘。而深度學(xué)習(xí)的應(yīng)用,把自然語言處理和語音、圖像、視頻處理所使用的數(shù)學(xué)工具統(tǒng)一起來了,從而打破了這些不同模態(tài)信息之間的壁壘,使得多模態(tài)信息的處理和融合成為可能。 總之,深度學(xué)習(xí)的應(yīng)用,使得自然語言處理達(dá)到了前所未有的水平,也使得自然語言處理應(yīng)用的范圍大大擴(kuò)展。 但近幾年,雖說基于深度學(xué)習(xí)的自然語言處理取得了巨大的成功,但其局限性也逐漸顯現(xiàn): 1. 過去大部分的自然語言處理都是用數(shù)據(jù)驅(qū)動(dòng)的方法,事實(shí)證明現(xiàn)在的自然語言理解還不夠深,相當(dāng)于說機(jī)器實(shí)際上只是理解了這個(gè)符號(hào)。我們的語言實(shí)際上是一種符號(hào),現(xiàn)在的自然語言處理,實(shí)際上是理解了符號(hào)與符號(hào)之間的關(guān)系,我們有大量的數(shù)據(jù)來驅(qū)動(dòng)訓(xùn)練這種理解,所以它能理解這種關(guān)系,但它不像人腦一樣能夠理解這個(gè)符號(hào)與真實(shí)的物理世界之間的關(guān)系。 2. 全世界有幾千種語言,其中大量的語言是沒有那么多數(shù)據(jù)的,資源稀缺問題比大部分人想象的要嚴(yán)重的多,在很多專業(yè)領(lǐng)域里面,也沒有很多數(shù)據(jù),工業(yè)界遇到的大部分問題只有極少或者完全沒有標(biāo)注數(shù)據(jù),我們不可能有那么大量的數(shù)據(jù)來訓(xùn)練一個(gè)系統(tǒng)。 劉群是華為諾亞方舟實(shí)驗(yàn)室語音語義首席科學(xué)家,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),在中國(guó)科學(xué)院計(jì)算機(jī)技術(shù)研究所獲計(jì)算機(jī)碩士學(xué)位,在北京大學(xué)獲計(jì)算機(jī)博士學(xué)位。曾擔(dān)任中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究院、自然語言處理處理研究組組長(zhǎng)、愛爾蘭都柏林城市大學(xué)計(jì)算機(jī)系終身教授、愛爾蘭 ADAPT 研究中心自然語言處理主題負(fù)責(zé)人。 在 2019 年 8 月 24 日北京舉辦的第四屆語言與智能高峰論壇上,劉群針對(duì)深度學(xué)習(xí)對(duì)于自然語言處理的貢獻(xiàn)與邊界展開了具體描述。劉群總結(jié)近年來給予深度學(xué)習(xí)的方法在自然語言處理中所取得的成功之處,列出那些曾經(jīng)被認(rèn)為很難但現(xiàn)在已經(jīng)基本解決或接近于解決的問題;并討論在這種方法目前面臨哪些挑戰(zhàn),分析這些挑戰(zhàn)中哪些是現(xiàn)在深度學(xué)習(xí)框架有希望解決的,而哪些是在深度學(xué)習(xí)框架下很難或者無法解決,需要探索新的解決途徑的。 過去十年,自然語言處理領(lǐng)域影響最深遠(yuǎn)的研究深度學(xué)習(xí)技術(shù)的引入,深度學(xué)習(xí)解決了自然語言處理的哪些問題?還有哪些自然語言處理問題深度學(xué)習(xí)沒有解決? 劉群將其答案總結(jié)為:自然語言處理中的資源稀缺問題、可解釋性問題、可信任性問題、可控制性問題、超長(zhǎng)文本問題、缺乏常識(shí)問題,并將其與深度學(xué)習(xí)方法邊界之間的關(guān)系聯(lián)系起來。 圖 | 劉群正在峰會(huì)做分享(來源:DeepTech) -語義邊界,或者說知識(shí)的學(xué)習(xí),或常識(shí)的學(xué)習(xí)問題。這是自然語言處理技術(shù)如何變得更“深”的問題。盡管常識(shí)的理解對(duì)人類來說不是問題,但是它卻很難被教給機(jī)器。比如我們可以對(duì)手機(jī)助手說“查找附近的餐館”,手機(jī)就會(huì)在地圖上顯示出附近餐館的位置。但你如果說“我餓了”,手機(jī)助手可能就無動(dòng)于衷,因?yàn)樗狈Α梆I了需要就餐”這樣的常識(shí),除非手機(jī)設(shè)計(jì)者把這種常識(shí)灌入到了這個(gè)系統(tǒng)中。但大量的這種常識(shí)都潛藏在我們意識(shí)的深處,AI 系統(tǒng)的設(shè)計(jì)者幾乎不可能把所有這樣的常識(shí)都總結(jié)出來,并灌入到系統(tǒng)中。 -數(shù)據(jù)邊界,即低資源問題。所謂無監(jiān)督學(xué)習(xí)、Zero-shot 學(xué)習(xí)、Few-shot 學(xué)習(xí)、元學(xué)習(xí)、遷移學(xué)習(xí)等技術(shù),本質(zhì)上都是為了解決低資源問題。面對(duì)標(biāo)注數(shù)據(jù)資源貧乏的問題,譬如小語種的機(jī)器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等,自然語言處理尚無良策。這類問題統(tǒng)稱為低資源的自然語言處理問題。對(duì)這類問題,我們除了設(shè)法引入領(lǐng)域知識(shí)(詞典、規(guī)則)以增強(qiáng)數(shù)據(jù)能力之外,還可以基于主動(dòng)學(xué)習(xí)的方法來增加更多的人工標(biāo)注數(shù)據(jù),以及采用無監(jiān)督和半監(jiān)督的方法來利用未標(biāo)注數(shù)據(jù),或者采用多任務(wù)學(xué)習(xí)的方法來使用其他任務(wù),甚至其他語言的信息,還可以使用遷移學(xué)習(xí)的方法來利用其他的模型。這是自然語言處理技術(shù)如何變得更“廣”的問題。 劉群教授舉了 WMT2019 的 Biomedical MT Task 的例子,在法語收錄的醫(yī)療名詞數(shù)據(jù)庫中,僅有不到 8 萬條語句,這對(duì)于傳統(tǒng)深度學(xué)習(xí)的數(shù)據(jù)訓(xùn)練量來說是遠(yuǎn)遠(yuǎn)不夠的! 圖 | 信息抽取與文本分類(來源:MIT Technology Review) 目前很多地方都在用自然語言處理技術(shù)。 二十年前流行五筆輸入法進(jìn)行文檔編輯等工作,那個(gè)時(shí)候拼音輸入法受到冷待,其實(shí)很大的原因是因?yàn)樽匀徽Z言處理技術(shù)沒有很好的解決拼音轉(zhuǎn)換字的這個(gè)預(yù)測(cè)的問題,當(dāng)編輯者輸入一串拼音時(shí),需要編輯者一個(gè)字一個(gè)字的去選,但現(xiàn)在常見的拼音輸入法,加持優(yōu)秀的自然語言處理技術(shù),輸入一串拼音,基本上就選兩三次便能打出滿意的語句。另外還有比如百度谷歌的搜索技術(shù),輸入一個(gè)問題,便給出了推薦答案,不會(huì)給你一堆文章讓你去查,這都是自然語言處理取得的一些非常大的一個(gè)進(jìn)展的結(jié)果,它在不斷地改善我們的生活。 就其中的多語言問題來說,在 RBMT (Rule-Based Machine Translation) 時(shí)代,開發(fā)多語言機(jī)器翻譯系統(tǒng)代價(jià)極高,其中較為理想的中間語言(Interlingua)方案,由于系統(tǒng)過于復(fù)雜,成為“”不可承受之重”。在 NMT (Neural Machine Translation )時(shí)代,單一的多語言機(jī)器翻譯系統(tǒng)被提出并被驗(yàn)證有效,中間語言的理想初步得以實(shí)現(xiàn)。 活動(dòng)推薦:CNCC2019 2019 年 10 月 17-19 日,2019 中國(guó)計(jì)算機(jī)大會(huì) (CNCC 2019) 將在蘇州金雞湖國(guó)際會(huì)議中心舉辦,由中國(guó)計(jì)算機(jī)學(xué)會(huì) (CCF) 主辦,蘇州工業(yè)園區(qū)管委會(huì)承辦。今年的大會(huì)主題為“智能 引領(lǐng)社會(huì)發(fā)展 (AI Leading the Development of Society)”,大會(huì)包含了:十五位國(guó)內(nèi)外計(jì)算機(jī)領(lǐng)域知名專家、企業(yè)家的大會(huì)報(bào)告、三場(chǎng)大會(huì)主題論壇,七十余場(chǎng)前沿技術(shù)論壇,二十場(chǎng)特色活動(dòng),以及一百個(gè)科技成果展。 其中三個(gè)大會(huì)論壇主要圍繞互聯(lián)網(wǎng) 50 年、工業(yè)互聯(lián)網(wǎng)、深度學(xué)習(xí)三個(gè)主題展開討論。七十余場(chǎng)技術(shù)論壇由內(nèi)容豐富、形式多樣的多個(gè)計(jì)算領(lǐng)域的熱點(diǎn)主題組成,如人工智能、大數(shù)據(jù)、區(qū)塊鏈、量子計(jì)算、神經(jīng)形態(tài)計(jì)算、工業(yè)互聯(lián)網(wǎng)、信息安全、健康醫(yī)療、教育教學(xué)等。劉群教授將擔(dān)任 CNCC 2019“自然語言對(duì)話:技術(shù)挑戰(zhàn)與行業(yè)應(yīng)用”分論壇的主席,與社會(huì)各界分享自然語言處理技術(shù)的更多前沿信息。 戰(zhàn)略合作媒體 |
|
|