电竞比分网-中国电竞赛事及体育赛事平台

分享

陳根:人工智能——處理語(yǔ)言的機(jī)器

 陳根談科技 2021-07-25

/陳根

20世紀(jì)50年代,圖靈提出著名的“圖靈測(cè)試”,引出了自然語(yǔ)言處理的思想,而后,經(jīng)過(guò)半個(gè)多世紀(jì)的跌宕起伏,歷經(jīng)專家規(guī)則系統(tǒng)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等一系列基礎(chǔ)技術(shù)體系的迭代,如今的自然語(yǔ)言處理技術(shù)在各個(gè)方向都有了顯著的進(jìn)步和提升。

自然語(yǔ)言是指漢語(yǔ)、英語(yǔ)、法語(yǔ)等人們?nèi)粘J褂玫恼Z(yǔ)言,是人類社會(huì)發(fā)展演變而來(lái)的語(yǔ)言,而不是人造的語(yǔ)言,自然語(yǔ)言是人類學(xué)習(xí)生活的重要工具。

自然語(yǔ)言在整個(gè)人類歷史上以語(yǔ)言文字形式記載和流傳的知識(shí)占到知識(shí)總量的 80%以上。就計(jì)算機(jī)應(yīng)用而言,據(jù)統(tǒng)計(jì),用于數(shù)學(xué)計(jì)算的僅占10%,用于過(guò)程控制的不到5%,其余 85%左右則都是用于語(yǔ)言文字的信息處理。

  

自然語(yǔ)言處理(Natural Language Processing,NLP)是將人類交流溝通所用的語(yǔ)言經(jīng)過(guò)處理轉(zhuǎn)化為機(jī)器所能理解的機(jī)器語(yǔ)言,是一種研究語(yǔ)言能力的模型和算法框架,是語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的交叉學(xué)科,是實(shí)現(xiàn)人機(jī)間的信息交流,是人工智能、計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)所共同關(guān)注的重要方向。

自然語(yǔ)言的處理流程大致可分為五步

第一步,獲取語(yǔ)料。

第二步,對(duì)語(yǔ)料進(jìn)行預(yù)處理,其中包括語(yǔ)料清理、分詞、詞性標(biāo)注和去停用詞等步驟。

第三步,特征化,也就是向量化,主要把分詞后的字和詞表示成計(jì)算機(jī)可計(jì)算的類型(向量),這樣有助于較好的表達(dá)不同詞之間的相似關(guān)系。

第四步,模型訓(xùn)練,包括傳統(tǒng)的有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)模型等,可根據(jù)應(yīng)用需求不同進(jìn)行選擇。

第五步,對(duì)建模后的效果進(jìn)行評(píng)價(jià),常用的評(píng)測(cè)指標(biāo)有準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-Measure)等。準(zhǔn)確率是衡量檢索系統(tǒng)的查準(zhǔn)率;召回率是衡量檢索系統(tǒng)的查全率;而F值是綜合準(zhǔn)確率和召回率用于反映整體的指標(biāo),當(dāng) 值較高時(shí)則說(shuō)明試驗(yàn)方法有效。

比爾·蓋茨曾說(shuō):“語(yǔ)言理解是人工智能皇冠上的明珠”。可以說(shuō),誰(shuí)掌握了更高級(jí)的自然語(yǔ)言處理技術(shù),誰(shuí)在自然語(yǔ)言處理的技術(shù)研發(fā)中取得了實(shí)質(zhì)突破,誰(shuí)就將在日益激烈的人工智能軍備競(jìng)賽中占得先機(jī)。

作為一門包含著計(jì)算機(jī)科學(xué)、人工智能以及語(yǔ)言學(xué)的交叉學(xué)科,自然語(yǔ)言處理的發(fā)展也經(jīng)歷了曲折中發(fā)展的過(guò)程。

1950 年圖靈提出的著名的“圖靈測(cè)試”,被認(rèn)為是自然語(yǔ)言處理思想的開(kāi)端。20世紀(jì)50年代到70年代自然語(yǔ)言處理主要采用基于規(guī)則的方法,即認(rèn)為自然語(yǔ)言處理的過(guò)程和人類學(xué)習(xí)認(rèn)知一門語(yǔ)言的過(guò)程是類似的,彼時(shí),自然語(yǔ)言處理還停留在理性主義思潮階段,以基于規(guī)則的方法為代表。

然而,基于規(guī)則的方法具有不可避免的缺點(diǎn),首先規(guī)則不可能覆蓋所有語(yǔ)句,其次這種方法對(duì)開(kāi)發(fā)者的要求極高,開(kāi)發(fā)者不僅要精通計(jì)算機(jī)還要精通語(yǔ)言學(xué),因此,這一階段雖然解決了一些簡(jiǎn)單的問(wèn)題,但是無(wú)法從根本上將自然語(yǔ)言理解實(shí)用化。

70 年代以后,隨著互聯(lián)網(wǎng)的高速發(fā)展,豐富的語(yǔ)料庫(kù)成為現(xiàn)實(shí)以及硬件不斷更新完善,自然語(yǔ)言處理思潮由理性主義向經(jīng)驗(yàn)主義過(guò)渡,基于統(tǒng)計(jì)的方法逐漸代替了基于規(guī)則的方法。

賈里尼克和其領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室是推動(dòng)這一轉(zhuǎn)變的關(guān)鍵,他們采用基于統(tǒng)計(jì)的方法,將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%提升到90%。在這一階段,自然語(yǔ)言處理基于數(shù)學(xué)模型和統(tǒng)計(jì)的方法取得了實(shí)質(zhì)性的突破,從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。

 20世紀(jì) 90年代開(kāi)始,自然語(yǔ)言處理進(jìn)入了繁榮期。19937月在日本神戶召開(kāi)的第四屆機(jī)器翻譯高層會(huì)議(MT Summit IV)上,英國(guó)著名學(xué)者William John Hutchins教授在他的特約報(bào)告中指出,自1989年以來(lái),機(jī)器翻譯的發(fā)展進(jìn)入了一個(gè)新紀(jì)元。

這個(gè)新紀(jì)元的重要標(biāo)志是在基于規(guī)則的技術(shù)中引入了語(yǔ)料庫(kù)方法,其中包括統(tǒng)計(jì)方法、基于實(shí)例的方法、通過(guò)語(yǔ)料加工手段使語(yǔ)料庫(kù)轉(zhuǎn)化為語(yǔ)言知識(shí)庫(kù)的方法等等。這種建立在大規(guī)模真實(shí)文本處理基礎(chǔ)上的機(jī)器翻譯,是機(jī)器翻譯研究史上的一場(chǎng)革命,它將會(huì)把自然語(yǔ)言處理推向一個(gè)嶄新的階段。隨著機(jī)器翻譯新紀(jì)元的開(kāi)始,自然語(yǔ)言處理進(jìn)入了它的繁榮期。

尤其是20世紀(jì)90年代的最后5年(19941999)以及 21世紀(jì)初期,自然語(yǔ)言處理的研究發(fā)生了很大的變化,出現(xiàn)了空前繁榮的局面。這主要表現(xiàn)在三個(gè)方面。

首先,概率和數(shù)據(jù)驅(qū)動(dòng)的方法幾乎成了自然語(yǔ)言處理的標(biāo)準(zhǔn)方法。句法剖析、詞類標(biāo)注、參照消解和話語(yǔ)處理的算法全都開(kāi)始引入概率,并且采用從語(yǔ)音識(shí)別和信息檢索中借過(guò)來(lái)的評(píng)測(cè)方法。

其次,由于計(jì)算機(jī)的速度和存儲(chǔ)量的增加,使得在語(yǔ)音和語(yǔ)言處理的一些子領(lǐng)域,特別是在語(yǔ)音識(shí)別、拼寫檢查、語(yǔ)法檢查這些子領(lǐng)域,有可能進(jìn)行商品化的開(kāi)發(fā)。語(yǔ)音和語(yǔ)言處理的算  開(kāi)   應(yīng)    強(qiáng)   (augmentative and alternative communication,AAC)中。

最后,是網(wǎng)絡(luò)技術(shù)的發(fā)展對(duì)于自然語(yǔ)言處理產(chǎn)生了的巨大推動(dòng)力。萬(wàn)維網(wǎng)(World Wide Web,WWW)的發(fā)展使得網(wǎng)絡(luò)上的信息檢索和信息抽取的需要變得更加突出,數(shù)據(jù)挖掘的技術(shù)日漸成熟。而 WWW 正是由自然語(yǔ)言構(gòu)成的,因此,隨著 WWW的發(fā)展,自然語(yǔ)言處理的研究變得越發(fā)重要。

如今,在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域的成果激勵(lì)下,人們也逐漸開(kāi)始引入深度學(xué)習(xí)來(lái)做自然語(yǔ)言處理研究, 2013年,word2vec將深度學(xué)習(xí)與自然語(yǔ)言處理的結(jié)合推向了高潮,并在機(jī)器翻譯、問(wèn)答系統(tǒng)、閱讀理解等領(lǐng)域取得了一定成功。

作為多層的神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)從輸入層開(kāi)始經(jīng)過(guò)逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓(xùn)練。把輸入到輸出對(duì)的數(shù)據(jù)準(zhǔn)備好,設(shè)計(jì)并訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),即可執(zhí)行預(yù)想的任務(wù)。 RNN已經(jīng)成為自然語(yǔ)言處理最常用的方法之一,GRU、LSTM等模型則相繼引發(fā)了一輪又一輪的自然語(yǔ)言識(shí)別熱潮。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多