电竞比分网-中国电竞赛事及体育赛事平台

分享

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在命名實體識別(NER)中的應(yīng)用

 timtxu 2017-05-13

近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在自然語言處理領(lǐng)域已經(jīng)取得了不少進展。作為NLP領(lǐng)域的基礎(chǔ)任務(wù)命名實體識別(Named Entity Recognition,NER)也不例外,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在NER中也取得了不錯的效果。最近,我也閱讀學(xué)習(xí)了一系列使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行NER的相關(guān)論文,在此進行一下總結(jié),和大家一起分享學(xué)習(xí)。

1 引言

命名實體識別(Named Entity RecognitionNER)就是從一段自然語言文本中找出相關(guān)實體,并標注出其位置以及類型,如下圖。它是NLP領(lǐng)域中一些復(fù)雜任務(wù)(例如關(guān)系抽取,信息檢索等)的基礎(chǔ)。

NER一直是NLP領(lǐng)域中的研究熱點,從早期基于詞典和規(guī)則的方法,到傳統(tǒng)機器學(xué)習(xí)的方法,到近年來基于深度學(xué)習(xí)的方法,NER研究進展的大概趨勢大致如下圖所示。

在基于機器學(xué)習(xí)的方法中,NER被當(dāng)作是序列標注問題。與分類問題相比,序列標注問題中當(dāng)前的預(yù)測標簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標簽相關(guān),即預(yù)測標簽序列之間是有強相互依賴關(guān)系的。例如,使用BIO進行NER時,正確的標簽序列中標簽O后面是不會接標簽I的。

在傳統(tǒng)機器學(xué)習(xí)中,條件隨機場(Conditional Random Field,CRF)是NER目前的主流模型。它的目標函數(shù)不僅考慮輸入的狀態(tài)特征函數(shù),而且還包含了標簽轉(zhuǎn)移特征函數(shù)。在訓(xùn)練時可以使用SGD學(xué)習(xí)模型參數(shù)。在已知模型時,給輸入序列求預(yù)測輸出序列即求使目標函數(shù)最大化的最優(yōu)序列,是一個動態(tài)規(guī)劃問題,可以使用維特比算法進行解碼。

在傳統(tǒng)機器學(xué)習(xí)方法中,常用的特征如下:

接下里我們重點看看如何使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來進行NER

2 NER中主流的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2.1 NN/CNN-CRF模型

Natural language processing (almost) from scratch》是較早使用神經(jīng)網(wǎng)絡(luò)進行NER的代表工作之一。在這篇論文中,作者提出了窗口方法與句子方法兩種網(wǎng)絡(luò)結(jié)構(gòu)來進行NER。這兩種結(jié)構(gòu)的主要區(qū)別就在于窗口方法僅使用當(dāng)前預(yù)測詞的上下文窗口進行輸入,然后使用傳統(tǒng)的NN結(jié)構(gòu);而句子方法是以整個句子作為當(dāng)前預(yù)測詞的輸入,加入了句子中相對位置特征來區(qū)分句子中的每個詞,然后使用了一層卷積神經(jīng)網(wǎng)絡(luò)CNN結(jié)構(gòu)。

在訓(xùn)練階段,作者也給出了兩種目標函數(shù):一種是詞級別的對數(shù)似然,即使用softmax來預(yù)測標簽概率,當(dāng)成是傳統(tǒng)一個分類問題;另一種是句子級別的對數(shù)似然,其實就是考慮到CRF模型在序列標注問題中的優(yōu)勢,將標簽轉(zhuǎn)移得分加入到了目標函數(shù)中。后來許多相關(guān)工作把這個思想稱為結(jié)合了一層CRF層,所以我這里稱為NN/CNN-CRF模型。

在作者的實驗中,上述提到的NNCNN結(jié)構(gòu)效果基本一致,但是句子級別似然函數(shù)即加入CRF層在NER的效果上有明顯提高。

2.2 RNN-CRF模型

借鑒上面的CRF思路,在2015年左右出現(xiàn)了一系列使用RNN結(jié)構(gòu)并結(jié)合CRF層進行NER的工作。代表工作主要有:

將這些工作總結(jié)起來就是一個RNN-CRF模型,模型結(jié)構(gòu)如下圖:

它主要有Embedding層(主要有詞向量,字符向量以及一些額外特征),雙向RNN層,tanh隱層以及最后的CRF層構(gòu)成。它與之前NN/CNN-CRF的主要區(qū)別就是他使用的是雙向RNN代替了NN/CNN。這里RNN常用LSTM或者GRU。實驗結(jié)果表明RNN-CRF獲得了更好的效果,已經(jīng)達到或者超過了基于豐富特征的CRF模型,成為目前基于深度學(xué)習(xí)的NER方法中的最主流模型。在特征方面,該模型繼承了深度學(xué)習(xí)方法的優(yōu)勢,無需特征工程,使用詞向量以及字符向量就可以達到很好的效果,如果有高質(zhì)量的詞典特征,能夠進一步獲得提高。

3 最近的一些工作

最近的一年在基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER研究上,主要集中在兩個方面:一是使用流行的注意力機制來提高模型效果(Attention Mechanism),二是針對少量標注訓(xùn)練數(shù)據(jù)進行的一些研究。

3.1 Attention-based

Attending to Characters in Neural Sequence Labeling Models》該論文還是在RNN-CRF模型結(jié)構(gòu)基礎(chǔ)上,重點改進了詞向量與字符向量的拼接。使用attention機制將原始的字符向量和詞向量拼接改進為了權(quán)重求和,使用兩層傳統(tǒng)神經(jīng)網(wǎng)絡(luò)隱層來學(xué)習(xí)attention的權(quán)值,這樣就使得模型可以動態(tài)地利用詞向量和字符向量信息。實驗結(jié)果表明比原始的拼接方法效果更好。

另一篇論文《Phonologically aware neural model for named entity recognition in low resource transfer settings》,在原始BiLSTM-CRF模型上,加入了音韻特征,并在字符向量上使用attention機制來學(xué)習(xí)關(guān)注更有效的字符,主要改進如下圖。

3.2 少量標注數(shù)據(jù)

對于深度學(xué)習(xí)方法,一般需要大量標注數(shù)據(jù),但是在一些領(lǐng)域并沒有海量的標注數(shù)據(jù)。所以在基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方法中如何使用少量標注數(shù)據(jù)進行NER也是最近研究的重點。其中包括了遷移學(xué)習(xí)《Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks》和半監(jiān)督學(xué)習(xí)。這里我提一下最近ACL2017剛錄用的一篇論文《Semi-supervised sequence tagging with bidirectional language models》。該論文使用海量無標注語料庫訓(xùn)練了一個雙向神經(jīng)網(wǎng)絡(luò)語言模型,然后使用這個訓(xùn)練好的語言模型來獲取當(dāng)前要標注詞的語言模型向量(LM embedding),然后將該向量作為特征加入到原始的雙向RNN-CRF模型中。實驗結(jié)果表明,在少量標注數(shù)據(jù)上,加入這個語言模型向量能夠大幅度提高NER效果,即使在大量的標注訓(xùn)練數(shù)據(jù)上,加入這個語言模型向量仍能提供原始RNN-CRF模型的效果。整體模型結(jié)構(gòu)如下圖:

4 總結(jié)

最后進行一下總結(jié),目前將神經(jīng)網(wǎng)絡(luò)與CRF模型相結(jié)合的NN/CNN/RNN-CRF模型成為了目前NER的主流模型。我認為對于CNNRNN,并沒有誰占據(jù)絕對的優(yōu)勢,各自有相應(yīng)的優(yōu)點。由于RNN有天然的序列結(jié)構(gòu),所以RNN-CRF使用更為廣泛?;?span>神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的NER方法,繼承了深度學(xué)習(xí)方法的優(yōu)點,無需大量人工特征。只需詞向量和字符向量就能達到主流水平,加入高質(zhì)量的詞典特征能夠進一步提升效果。對于少量標注訓(xùn)練集問題,遷移學(xué)習(xí),半監(jiān)督學(xué)習(xí)應(yīng)該是未來研究的重點。

參考文獻

[1] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proceedings of the eighteenth international conference on machine learning, ICML. 2001, 1: 282-289.

[2] Sutton C, McCallum A. An introduction to conditional random fields. Foundations and Trends? in Machine Learning, 2012, 4(4): 267-373.

[3] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch. Journal of Machine Learning Research, 2011, 12(Aug): 2493-2537.

[4] Lample G, Ballesteros M, Subramanian S, et al. Neural Architectures for Named Entity Recognition. Proceedings of NAACL-HLT. 2016: 260-270.

[5] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint arXiv:1508.01991, 2015.

[6] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstm-cnns-crf. arXiv preprint arXiv:1603.01354, 2016.

[7] Chiu J P C, Nichols E. Named entity recognition with bidirectional LSTM-CNNs. arXiv preprint arXiv:1511.08308, 2015.

[8] Rei M, Crichton G K O, Pyysalo S. Attending to Characters in Neural Sequence Labeling Models. arXiv preprint arXiv:1611.04361, 2016.

[9] Akash Bharadwaj, David Mortensen, Chris Dyer, Jaime G Carbonell. Phonologically aware neural model for named entity recognition in low resource transfer settings. EMNLP, pages 1462–1472, 2016.

[10] Yang Z, Salakhutdinov R, Cohen W W. Transfer Learning for Sequence Tagging with Hierarchical Recurrent Networks. ICLR, 2017.

[11] Matthew E. Peters, Waleed Ammar, Chandra Bhagavatula, Russell Power. Semi-supervised sequence tagging with bidirectional language models. ACL, 2017.

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多