电竞比分网-中国电竞赛事及体育赛事平台

分享

用MeCab打造一套實(shí)用的中文分詞系統(tǒng)(二) | 我愛自然語言處理

 看見就非常 2015-04-24

雖然是愚人節(jié),但是這個(gè)不是愚人節(jié)玩笑,最近花了一些時(shí)間在MeCab身上,越發(fā)喜歡這個(gè)來自島國的開源分詞系統(tǒng),今天花了一些時(shí)間訓(xùn)練了一個(gè)更適用的模型和詞典,打包提供給大家使用,因?yàn)閿?shù)據(jù)和詞典涉及到一些版權(quán)問題,所以打包文件里只是mecab用于發(fā)布的二進(jìn)制詞典和模型文件,目前在mac os和linux ubuntu系統(tǒng)下測(cè)試無誤,其他系統(tǒng)請(qǐng)自行測(cè)試使用:

鏈接: http://pan.baidu.com/s/1sjBfdXr 密碼: 8udf

了解和安裝mecab請(qǐng)參考:
日文分詞器 Mecab 文檔
用MeCab打造一套實(shí)用的中文分詞系統(tǒng)

使用前請(qǐng)按上述文檔安裝mecab,下載這個(gè)中文分詞模型和詞典之后解壓,解壓后得到一個(gè)mecab-chinese-data目錄,執(zhí)行:

mecab -d mecab-chinese-data
揚(yáng)帆遠(yuǎn)東做與中國合作的先行
揚(yáng)帆 v,*,*,*,*,*,揚(yáng)帆,*,*
遠(yuǎn)東 ns,*,*,*,*,*,遠(yuǎn)東,*,*
做 v,*,*,*,*,*,做,*,*
與 p,*,*,*,*,*,與,*,*
中國 ns,*,*,*,*,*,中國,*,*
合作 v,*,*,*,*,*,合作,*,*
的 u,*,*,*,*,*,的,*,*
先行 vn,*,*,*,*,*,先行,*,*
EOS

上述第二列提供了詞性標(biāo)注結(jié)果。

如果想得到單行的分詞結(jié)果,可以這樣執(zhí)行:

mecab -d ./mecab-chinese-data/ -O wakati
揚(yáng)帆遠(yuǎn)東做與中國合作的先行
揚(yáng)帆 遠(yuǎn)東 做 與 中國 合作 的 先行

如果想直接對(duì)文件分詞,可以這樣執(zhí)行:

mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT

具體可以參考上述兩個(gè)文檔,另外我在mac下測(cè)試了一下中文維基百科語料的切分速度,大概700多M的語料,不到90秒切分完畢,大概7M/s的切分速度完全達(dá)到了工業(yè)屆的使用標(biāo)準(zhǔn)。另外Mecab還支持Nbest輸出,多種輸出格式,全切分模式,系統(tǒng)詞典和用戶詞典定制等等,同時(shí)通過SWIG提供了perl, ruby, python, java的調(diào)用接口,非常方便。

以下是在backoff2005 人民日?qǐng)?bào)語料庫上的測(cè)試結(jié)果:

=== SUMMARY:
=== TOTAL INSERTIONS: 3803
=== TOTAL DELETIONS: 1981
=== TOTAL SUBSTITUTIONS: 5004
=== TOTAL NCHANGE: 10788
=== TOTAL TRUE WORD COUNT: 104372
=== TOTAL TEST WORD COUNT: 106194
=== TOTAL TRUE WORDS RECALL: 0.933
=== TOTAL TEST WORDS PRECISION: 0.917
=== F MEASURE: 0.925
=== OOV Rate: 0.058
=== OOV Recall Rate: 0.482
=== IV Recall Rate: 0.961
### pku_test.result 3803 1981 5004 10788 104372 106194 0.933 0.917 0.925 0.058 0.482 0.961

召回率93.3%,準(zhǔn)確率91.7%, F值為92.5%, 雖然還沒有一個(gè)單純針對(duì)這個(gè)測(cè)試語料比賽的分詞結(jié)果好,但是測(cè)試了一些其他語料后覺得這個(gè)版本完全可以作為一個(gè)基準(zhǔn)版本使用,另外mecab也提供了用戶定制詞典接口,方便用戶按自己的需求定制使用。

最后提供一個(gè)demo僅供測(cè)試使用: 中文分詞Demo

注:原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處“我愛自然語言處理”:www.

本文鏈接地址:http://www./用mecab打造一套實(shí)用的中文分詞系統(tǒng)二

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多