文檔智能分析產(chǎn)業(yè)實(shí)踐,基于PP-StructureV2和OpenVINO實(shí)現(xiàn)訓(xùn)練部署開(kāi)發(fā)全流程
金融和醫(yī)療等行業(yè)存在大量書面文檔結(jié)構(gòu)化分析和內(nèi)容提取場(chǎng)景和任務(wù),例如合同、票據(jù)、卡證識(shí)別、紙質(zhì)文本等電子化存儲(chǔ)、文件復(fù)原與二次編輯、信息檢索等。由于布局和格式的多樣性和復(fù)雜性、低質(zhì)量的掃描文檔圖像,自動(dòng)、精準(zhǔn)、快速的信息處理和提取對(duì)企業(yè)來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
文檔智能是指通過(guò)計(jì)算機(jī)進(jìn)行自動(dòng)閱讀、理解以及分析商業(yè)文檔的過(guò)程,是自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)交叉領(lǐng)域的一個(gè)重要研究方向。隨著企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程不斷加速,企業(yè)利用深度學(xué)習(xí)技術(shù)可以將非結(jié)構(gòu)化的文檔圖片快速地轉(zhuǎn)化為結(jié)構(gòu)化的字符和圖表,并基于Word或Excel形式進(jìn)行保存,大大提高關(guān)鍵信息提取的效率,降低人力成本。

01?文檔關(guān)鍵信息抽取與版面恢復(fù)實(shí)踐
小伙伴肯定好奇,如何才能快速上手這么經(jīng)典的深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用呢?針對(duì)以上企業(yè)需求,飛槳開(kāi)源了PP-StructureV2智能文檔分析系統(tǒng),支持版面分析、表格識(shí)別、關(guān)鍵信息抽取、版面復(fù)原等功能模塊獨(dú)立使用或靈活搭配。同時(shí),飛槳也聯(lián)合Intel建設(shè)了文檔關(guān)鍵信息抽取與版面恢復(fù)產(chǎn)業(yè)實(shí)踐范例,基于PP-StructureV2 Pipeline詳解模型訓(xùn)練及調(diào)優(yōu)經(jīng)驗(yàn)以及如何基于Intel?OpenVINO快速部署,優(yōu)化CPU推理任務(wù)性能,極致利用Intel x86硬件資源。
項(xiàng)目鏈接
https://aistudio.baidu.com/aistudio/projectdetail/5666281?contributionType=1
場(chǎng)景難點(diǎn)
書面文檔中存在拍照、掃描、手寫體等情況,識(shí)別難度大;
文檔版式多種多樣,且版面元素大小不統(tǒng)一;
基于CPU的AI算法部署成本高,嵌入式芯片的開(kāi)發(fā)復(fù)雜度高,算法集成難。
方案設(shè)計(jì)
本次分享主要展示的是文檔關(guān)鍵信息抽取和版面恢復(fù)任務(wù)。在該任務(wù)中,圖像類的文檔首先經(jīng)過(guò)版面分析模型,被劃分為文本、表格、圖像等不同區(qū)域,隨后對(duì)這些區(qū)域分別識(shí)別,如將表格區(qū)域送入表格識(shí)別模塊進(jìn)行結(jié)構(gòu)化識(shí)別,將文本區(qū)域送入PaddleOCR進(jìn)行文字識(shí)別,最后使用版面恢復(fù)模塊將其恢復(fù)為與原始圖像布局一致的Word文件。

PP-StructureV2 模型優(yōu)化策略和效果
版面分析任務(wù)中使用基于PP-PicoDet的輕量級(jí)版面分析模型,速度提升11倍,CPU上可實(shí)時(shí)推理。同時(shí)基于FGD知識(shí)蒸餾技術(shù),在保證精度的情況下進(jìn)一步壓縮模型體積,預(yù)測(cè)速度比教師模型快1倍。
表格識(shí)別任務(wù)中提出了 SLANet (Structure Location Alignment Network)網(wǎng)絡(luò)結(jié)構(gòu),其中包含CPU友好型輕量級(jí)骨干網(wǎng)絡(luò)PP-LCNet,實(shí)現(xiàn)更優(yōu)的“精度-速度”均衡;輕量級(jí)高低層特征融合模塊CSP-PAN,有效解決尺度變化較大等復(fù)雜場(chǎng)景中的模型預(yù)測(cè)問(wèn)題結(jié)構(gòu),表格識(shí)別模型精度從0.97%提升至75.68%,預(yù)測(cè)速度提升10%;結(jié)構(gòu)與位置信息對(duì)齊的特征解碼模塊SLAHead,將最終模型精度從75.68%提高至77.7%。
模型部署
使用OpenVINO作為推理后端,倍數(shù)級(jí)提升任務(wù)在CPU側(cè)的處理速度。
基于OpenVINO的performance hint策略,根據(jù)使用場(chǎng)景的不同需求,自動(dòng)完成多線程任務(wù)配置,優(yōu)化模型吞吐量或推理延遲。
本項(xiàng)目的最終部署環(huán)境為Intel x86平臺(tái)設(shè)備??紤]開(kāi)發(fā)便捷性,本次示例使用Python部署開(kāi)發(fā)環(huán)境。該系統(tǒng)是由版面分析、文本檢測(cè)、文本識(shí)別、表格結(jié)構(gòu)識(shí)別等4個(gè)模型所構(gòu)建的Pipeline,可以實(shí)現(xiàn)文檔圖片的快速格式化功能。在飛槳人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)AI Studio中也提供了完整的使用示例與開(kāi)發(fā)說(shuō)明,可參考該教程快速學(xué)習(xí),并針對(duì)實(shí)際項(xiàng)目進(jìn)行開(kāi)發(fā)和集成。

02?精彩課程預(yù)告
為了讓小伙伴們更便捷地應(yīng)用范例教程,OpenVINO AI軟件工程師Ethan將于3月23日(周四)20:15為大家深度解析從數(shù)據(jù)準(zhǔn)備、方案設(shè)計(jì)到模型優(yōu)化部署的開(kāi)發(fā)全流程,手把手教大家進(jìn)行代碼實(shí)踐。
掃碼報(bào)名直播課,加入技術(shù)交流群
