|
1.導讀 隨著企業(yè)數字化進程不斷加速,PDF轉Word的功能、紙質文本的電子化存儲、文件復原與二次編輯、信息檢索等應用都有著強烈的企業(yè)需求。目前市面上已有一些軟件,但普遍需要繁瑣的安裝注冊操作,大多還存在額度限制。此外,最終轉換效果也依賴于版面形態(tài),無法做到針對性適配。針對社區(qū)開發(fā)者迫切的需求,飛槳社區(qū)開發(fā)者吳泓晉(GitHubID:whjdark)基于最新發(fā)布的PP-StructureV2智能文檔分析系統(tǒng),開發(fā)了一款PDF轉Word軟件,導入PDF文件可一鍵轉換為可編輯Word,支持文字、表格、標題、圖片的完整恢復,實現PDF編輯自由!
軟件的使用十分簡單,下載后解壓exe文件,打開圖片或PDF文件,點擊轉換后可對圖片型PDF文件進行OCR識別得到Word文件,或者通過PDF解析功能直接獲得轉換后的Word。 ![]()
2.PP-StructureV2 智能文檔分析系統(tǒng)優(yōu)化策略概述 ![]() 從算法改進思路來看,對系統(tǒng)中的3個關鍵子模塊,共進行了8個方面的改進: ☆版面分析
☆表格識別
☆關鍵信息抽取
3.PP-StructureV2 智能文檔分析系統(tǒng)整體介紹 3.1 版面分析與恢復版面分析指的是對圖片形式的文檔進行區(qū)域劃分,定位其中的關鍵區(qū)域,如文字、標題、表格、圖片等。在PP-StructureV1中,使用了PaddleDetection中開源的高效檢測算法PP-YOLOv2完成版面分析的任務。在PP-StructureV2中,我們發(fā)布基于PP-PicoDet的輕量級版面分析模型,針對版面分析場景定制圖像尺度,同時使用FGD知識蒸餾算法,進一步提升模型精度,最終CPU上41ms即可完成版面分析。
圖4 版面分析效果圖(分類為文字、圖片、表格、圖注、標注等) 3.2 表格識別基于深度學習的表格識別算法種類豐富,PP-StructureV1基于文本識別算法RARE研發(fā)了端到端表格識別算法TableRec-RARE,模型輸出為表格結構的HTML表示,進而可以方便地轉化為Excel文件。TableRec-RARE中,圖像輸入到骨干網絡后會得到四個不同尺度的特征圖,分別為C2(1/4),C3(1/8),C4(1/16),C5(1/32),Head特征解碼模塊將C5作為輸入,并輸出表格結構信息和單元格坐標。 本次升級過程中,我們對模型結構和損失函數等5個方面進行升級,提出了 SLANet (Structure Location Alignment Network) ,模型結構如下圖所示,詳細解讀請參考技術報告。
圖5 SLANet模型結構圖 可視化結果如下,左為輸入圖像[1],右為識別的HTML表格結果
圖6 可視化結果 在PubtabNet英文表格識別數據集上,和其他方法對比如下。SLANet平衡精度與模型大小,推理速度最快,能夠適配更多應用場景:
測試環(huán)境:飛槳版本為2.3.1,CPU為Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz,開啟mkldnn,線程數為10。 3.3關鍵信息抽取關鍵信息抽取指的是針對文檔圖像的文字內容,提取出用戶關注的關鍵信息,如身份證中的姓名、住址等字段。PP-Structure中支持了基于多模態(tài)LayoutLM系列模型的語義實體識別 (Semantic Entity Recognition, SER) 以及關系抽取 (Relation Extraction, RE) 任務。PP-StructureV2中,我們對模型結構以及下游任務訓練方法進行升級,提出了VI-LayoutXLM(Visual-feature Independent LayoutXLM),具體流程圖如下所示。
圖7 關鍵信息抽取流程圖
圖8 語義實體識別與關系抽取效果圖[2]
4.加入PaddleOCR 技術交流群 本次更新除了PP-Structure的升級以外,PaddleOCR團隊對PP-OCRv3模型也進行了面向前端場景的適配升級,并提供了開箱即用的網頁版demo和小程序demo,整體系統(tǒng)存儲從12.3M壓縮至4.3M,在Mac-M1機器上使用chrome瀏覽器測試推理速度僅需350ms,流暢度顯著升級,相比舊版本模型壓縮65%,預測速度提升87.5%。歡迎大家試用! ☆入群福利
☆入群方式
更多閱讀
附.PP-StructureV2 核心8種優(yōu)化策略詳細解讀 ☆版面分析
PaddleDetection中提出了全新的輕量級系列模型PP-PicoDet,通過使用ESNet骨干網絡、CSP-PAN特征融合模塊、SimOTA標簽分配方法等優(yōu)化策略,最終在CPU與移動端具有卓越的性能。本次版面分析模型使用PP-PicoDet進行優(yōu)化,同時針對版面分析場景優(yōu)化預測尺度,最終相比PP-StructureV1版面分析模型,精度提升0.6%,模型速度提升9倍。
FGD(Focal and Global Knowledge Distillation for Detectors),是一種兼顧局部全局特征信息的模型蒸餾方法,分為Focal蒸餾和Global蒸餾2個部分。Focal蒸餾分離圖像的前景和背景,讓學生模型分別關注教師模型的前景和背景部分特征的關鍵像素;Global蒸餾部分重建不同像素之間的關系并將其從教師轉移到學生,以補償Focal蒸餾中丟失的全局信息。版面分析實驗結果表明,FGD蒸餾算法能夠進一步提升模型精度。 ☆表格識別
PP-LCNet是結合Intel-CPU端側推理特性而設計的輕量高性能骨干網絡,在圖像分類任務上,該方案在“精度-速度”均衡方面的表現比ShuffleNetV2、MobileNetV3、GhostNet等輕量級模型更優(yōu)。PP-StructureV2中,我們采用PP-LCNet作為骨干網絡,表格識別模型精度從71.73%提升至72.98%;同時加載通過SSLD知識蒸餾方案訓練得到的圖像分類模型權重作為表格識別的預訓練模型,最終精度進一步提升2.95%至74.71%。
對骨干網絡提取的特征進行融合,可以有效解決尺度變化較大等復雜場景中的模型預測問題。早期,FPN模塊被提出并用于特征融合,但是它的特征融合過程僅包含單向(高->低),融合不夠充分。CSP-PAN基于PAN進行改進,在保證特征融合更為充分的同時,使用CSP block、深度可分離卷積等策略減小了計算量。在表格識別場景中,我們進一步將CSP-PAN的通道數從128降低至96以降低模型大小。最終表格識別模型精度提升0.97%至75.68%,預測速度提升10%。
PP-StructureV2中,我們設計SLAHead模塊,對單元格token和坐標之間做了對齊操作,如下圖b所示。在SLAHead中,每一個step的隱藏層狀態(tài)表征會分別送入SDM和CLDM來得到當前step的token和坐標,每個step的token和坐標輸出分別進行concat得到表格的html表達和全部單元格的坐標。此外,我們在結構與回歸分支使用更多的全連接層,增加二者特征的區(qū)分度。 ![]()
LayoutLMv2以及LayoutXLM中引入視覺骨干網絡,用于提取視覺特征,并與后續(xù)的text embedding進行聯合,作為多模態(tài)的輸入embedding。但是該模塊為基于ResNet_x101_64x4d的特征提取網絡,特征抽取階段耗時嚴重,因此我們將其去除,同時仍然保留文本、位置以及布局等信息,最終發(fā)現針對LayoutXLM進行改進,下游SER任務精度無損,針對LayoutLMv2進行改進,下游SER任務精度僅降低2.1%,而模型大小減小了約340M。具體消融實驗可以參考技術報告。
文本閱讀順序對于信息抽取與文本理解等任務至關重要,傳統(tǒng)多模態(tài)模型中,沒有考慮不同OCR工具可能產生的不正確閱讀順序,而模型輸入中包含位置編碼,閱讀順序會直接影響預測結果,在預處理中,我們對文本行按照從上到下,從左到右(YX)的順序進行排序,為防止文本行位置輕微干擾帶來的排序結果不穩(wěn)定問題,在排序的過程中,引入位置偏移閾值Th,對于Y方向距離小于Th的2個文本內容,使用X方向的位置從左到右進行排序。
UDML(Unified-Deep Mutual Learning)聯合互學習是PP-OCRv2與PP-OCRv3中采用的對于文本識別非常有效的提升模型效果的策略。在訓練時,引入2個完全相同的模型進行互學習,計算2個模型之間的互蒸餾損失函數(DML loss),同時對transformer中間層的輸出結果計算距離損失函數(L2 loss)。使用該策略,最終XFUND數據集上,SER任務F1指標提升0.6%,RE任務F1指標提升5.01%。 圖片來源: [1] 圖片源于網絡 [2] XFUN數據集:Xu Y, Lv T, Cui L, et al. XFUND: A Benchmark Dataset for Multilingual Visually Rich Form Understanding[C]//Findings of the Association for Computational Linguistics: ACL 2022. 2022: 3214-3224. |
|
|
來自: mynotebook > 《待分類》