电竞比分网-中国电竞赛事及体育赛事平台

分享

【數(shù)說】當(dāng)《全宋詞》遇上機(jī)器學(xué)習(xí)

 昵稱65450 2019-09-08

近期,《中國(guó)詩詞大會(huì)》《朗讀者》《中華好詩詞》等節(jié)目熱播,掀起又一波傳統(tǒng)文化浪潮?;ヂ?lián)網(wǎng)語境的時(shí)代,“飛花令”這樣聽起來復(fù)古、文雅的詞匯刷屏了朋友圈,唐詩宋詞的美再次進(jìn)入人們視野,重新喚起國(guó)人的詩心和對(duì)文學(xué)的溫柔記憶。本文用機(jī)器學(xué)習(xí)的方式來挖掘《全宋詞》帶您一起領(lǐng)略宋詞之美。

作者 | 小雨微瀾

編輯 | 數(shù)小妹

近期,《中國(guó)詩詞大會(huì)》《朗讀者》《中華好詩詞》等節(jié)目熱播,掀起又一波傳統(tǒng)文化浪潮?;ヂ?lián)網(wǎng)語境的時(shí)代,“飛花令”這樣聽起來復(fù)古、文雅的詞匯刷屏了朋友圈,唐詩宋詞的美再次進(jìn)入人們視野,重新喚起國(guó)人的詩心和對(duì)文學(xué)的溫柔記憶。

如今人工智能是最高科技技術(shù)之一,人工智能技術(shù)與各領(lǐng)域相融合的探索,生活、工作智能化儼然成為一個(gè)新的趨勢(shì)。那么,詩歌與人工智能能碰撞出怎樣的火花呢?本次,小雨將以自然語言處理的方式和工具來挖掘剖析《全宋詞》,用計(jì)算機(jī)來完成以對(duì)宋詞的信息抽取、摘要,聚類分類、相似性分析等。

文本預(yù)處理

由于詩詞與現(xiàn)代漢語的語法和結(jié)構(gòu)的差異,不能采用常用的針對(duì)現(xiàn)代漢語的分詞工具,如Jieba,HanLP等,本文是將全宋詞逐字切分,用python編寫的代碼如下:

得到分詞結(jié)果后,要進(jìn)行第二步的操作,去停用詞。停用詞是一些完全沒有用或者沒有意義的詞,例如助詞、語氣詞、標(biāo)點(diǎn)符號(hào)等。本文的停用詞表是筆者首先從網(wǎng)上下載的哈工大停用詞表:

將經(jīng)過分詞和去停用詞的《全宋詞》文本保存下來,便可以進(jìn)行下一步的字頻分析了。

字頻分析

整個(gè)《全宋詞》中共有797242行詞,合計(jì)有18101842字。通過字頻統(tǒng)計(jì)發(fā)現(xiàn),出現(xiàn)次數(shù)最多的十個(gè)字是:人,山,風(fēng),天,日,生,云,中,時(shí),年,其中人出現(xiàn)了7萬多次,說明宋詞很好的秉承了“以人為本”的中華文化;山,風(fēng),天,日,云則是描寫自然風(fēng)光的主要意象;生,時(shí),年是對(duì)光陰的表達(dá)。這說明人物,景色,時(shí)光是宋詞的三大主題,下文中我們將深入探索詩歌的聚類分析。

題目與作者

將184977首宋詞的題目進(jìn)行統(tǒng)計(jì),繪制詞云。題目頻數(shù)較多的有山居雜詩,偶成,宮詞,雜詩,華陽吟,題扇,上丞相壽,雨,梅花,海棠,感事,春日等

由于《全宋詞》中的詞作者眾多,小雨統(tǒng)計(jì)了較為喜歡的詩人的作詞數(shù)。如:蘇軾,柳永,歐陽修,賀鑄,黃庭堅(jiān)等人。而作為宋詞兩大派系—“豪放派”與“婉約派”代表人的蘇軾與柳永,詞作數(shù)無疑是相對(duì)較多的。

文本相似度計(jì)算

宋詞之妙,常在于其靈動(dòng)性。同是寫思念,有溫庭筠的“梧桐樹,三更雨,不道離情正苦。一葉葉,一聲聲,空階滴到明”;有馮延巳的“錦壺催畫箭,玉佩天涯遠(yuǎn)。和淚試嚴(yán)妝,落梅飛夜霜”;也有韋莊的“琵琶金翠羽,弦上黃鶯語。勸我早還家,綠窗人似花”。作為從小在詩詞熏陶下的中華兒女,我們可能很容易判斷詩的主旨及不同的詩詞之間是否具有相似處,但對(duì)計(jì)算機(jī)來說這些似乎沒那么簡(jiǎn)單。因此我們探索用機(jī)器學(xué)習(xí)的方法去判斷詩詞的相似性。

本次采用的是IF-IDF權(quán)重計(jì)算與余弦相似度(cosine similarity)相結(jié)合的方法,使用于向量空間模型中。我們都知道文本是一種高維的語義空間,IF-IDF權(quán)重計(jì)算方法可將文本向量化。向量實(shí)際上是多維空間中有方向的線段。如果兩個(gè)向量的方向一致,即夾角接近零,那么這兩個(gè)向量就相近。而要確定兩個(gè)向量方向是否一致,這就要用到余弦定理計(jì)算向量的夾角了。余弦值越大,證明夾角越小,兩個(gè)向量越相似。

小雨將用余弦相似度算法計(jì)算的結(jié)果與《用文本挖掘剖析近5萬首<全唐詩>》一文中基于WMD(Earth Movers Distance)的語義相似度算法的結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)兩種算法的對(duì)詩詞相似度判斷的趨勢(shì)基本相似。在“黃沙百戰(zhàn)穿金甲,不破樓蘭終不還”與其相似詩句的相似度判斷中,cosine similarity算法對(duì)不同詩詞的區(qū)分度更大;“人生代代無窮已,江月年年只相似”等詩句的相似度計(jì)算中,兩種算法在個(gè)別詩句的判斷中差異較大,如:能在人代中,遂將人隔代,人間知幾代,今曰見河南。

通過對(duì)詩詞之間的相似度進(jìn)行建模計(jì)算。文本之間的相似性對(duì)大規(guī)模語料進(jìn)行去重預(yù)處理,或者找尋某一實(shí)體名稱的相關(guān)名稱(模糊匹配),接著,我們便可以利用劃分法K-means、基于密度的DBSCAN或者是基于模型的概率方法進(jìn)行文本之間的聚類分析。本文主要基于Word2Vec算法對(duì)全宋詞進(jìn)行聚類分析。

文本聚類分析

近幾年,Google 開發(fā)了名為 Word2Vec 新方法,既能獲取詞的語境,同時(shí)又減少了數(shù)據(jù)大小。Word2Vec 實(shí)際上有兩種不一樣的方法:CBOW(Continuous Bag of Words,連續(xù)詞袋)和 Skip-gram。兩個(gè)方法都使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)來作為它們的分類算法。本文主要用Skip-gram方法,通過給定一個(gè)單獨(dú)的詞來預(yù)測(cè)某個(gè)范圍的詞。首先,詞匯表中的每個(gè)單詞都是隨機(jī)的N維向量。在訓(xùn)練過程中,算法會(huì)Skip-gram 來學(xué)習(xí)每個(gè)詞的最優(yōu)向量,關(guān)鍵代碼如下:

我們發(fā)現(xiàn),與酒關(guān)聯(lián)度較大的詞有柳,亭,道,送,雁,陽,鵑,水,故等;這類字正好構(gòu)成了送別類詩詞。古代由于交通不便,通訊極不發(fā)達(dá),親人朋友之間往往一別數(shù)載難以相見,故古人特別看重離別。常用意象:長(zhǎng)亭飲酒、古道相送、折柳贈(zèng)別、夕陽揮手、芳草離情,柳、浮萍、孤蓬、杜鵑、鴻雁等。李叔同的《送別》是非常著名的一首送別詞,其中“長(zhǎng)亭外,古道邊,芳草碧連天,問君此去幾時(shí)還,來時(shí)莫徘徊,天之涯,地之角,知交半零落,一壺濁灑盡余歡,今宵別夢(mèng)寒”中就包含酒,亭,道等字。

閨怨類的關(guān)鍵字有:月、夢(mèng)、淚、寒、燈、燭、簾、被、鏡、人等。這類詞以女子為的主要描寫對(duì)象,以女子的身份表達(dá)作者內(nèi)心的感嘆、哀怨等情感。

古人或久宦在外,或長(zhǎng)期流離漂泊,或久戍邊關(guān),總會(huì)引起濃濃的思鄉(xiāng)懷人之情,所以行旅類詞作就特別多,這類詞的關(guān)鍵字有風(fēng)、月、霜、雁、樓、云、鳥、煙、日、暮等。

詠物類的詞或流露出作者的人生態(tài)度,或寄寓美好的愿望,或包涵生活的哲理,或表現(xiàn)作者的生活情趣。意向有歲寒三友:松、竹、梅(高潔);菊花(隱逸、高潔、脫俗);蓮(出淤泥而不染、高潔);蘭(高潔、君子之德);柳(離情別恨;搖擺不定;春天的美好);動(dòng)雁(思鄉(xiāng)懷親、羈旅傷感);蟬(悲涼;高潔);鵑(哀怨、凄惻、思?xì)w)等。

山水田園類以描寫自然風(fēng)光、農(nóng)村景物以及安逸恬淡的隱居生活見長(zhǎng),詩境雋永優(yōu)美,風(fēng)格恬靜淡雅,語言清麗洗練。關(guān)鍵字有山、月、溪、花、泉、漁、隱、鳥、燕、煙等。

本文用機(jī)器學(xué)習(xí)的方式來挖掘《全宋詞》,通過詞頻統(tǒng)計(jì)分析發(fā)現(xiàn)人物,景色,時(shí)光是宋詞的三大主題;山居雜詩是詞人最喜歡的題目,“豪放派”與“婉約派”代表人的蘇軾與柳永,被《全宋詞》收錄的詞作數(shù)是最多的;通過是IF-IDF權(quán)重計(jì)算與余弦相似度(cosine similarity)相結(jié)合的方法計(jì)算兩句詩詞的相似性,并于WMD(Earth Movers Distance)算法的結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)兩種算法的對(duì)詩詞相似度判斷的趨勢(shì)基本相同;使用Word2Vec算法中的Skip-gram方法進(jìn)行聚類分析,通過關(guān)鍵字提取,將宋詞中字分為送別類,閨怨類,行旅類等五大類。

小雨目前還處于初學(xué)階段,不盡之處,歡迎廣大機(jī)器學(xué)習(xí)愛好者在評(píng)論區(qū)留言與小雨一起交流探討哦。

 · end · 

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多