散文網(wǎng) » 生活 »日常 » 文檔智能分析產(chǎn)業(yè)實(shí)踐，基于PP-StructureV2和OpenVINO實(shí)現(xiàn)訓(xùn)練部署開(kāi)發(fā)全流程

文檔智能分析產(chǎn)業(yè)實(shí)踐，基于PP-StructureV2和OpenVINO實(shí)現(xiàn)訓(xùn)練部署開(kāi)發(fā)全流程

2023-03-22 11:38 作者:飛槳PaddlePaddle 0人讀過(guò) | 我要投稿

金融和醫(yī)療等行業(yè)存在大量書面文檔結(jié)構(gòu)化分析和內(nèi)容提取場(chǎng)景和任務(wù)，例如合同、票據(jù)、卡證識(shí)別、紙質(zhì)文本等電子化存儲(chǔ)、文件復(fù)原與二次編輯、信息檢索等。由于布局和格式的多樣性和復(fù)雜性、低質(zhì)量的掃描文檔圖像，自動(dòng)、精準(zhǔn)、快速的信息處理和提取對(duì)企業(yè)來(lái)說(shuō)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

文檔智能是指通過(guò)計(jì)算機(jī)進(jìn)行自動(dòng)閱讀、理解以及分析商業(yè)文檔的過(guò)程，是自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)交叉領(lǐng)域的一個(gè)重要研究方向。隨著企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程不斷加速，企業(yè)利用深度學(xué)習(xí)技術(shù)可以將非結(jié)構(gòu)化的文檔圖片快速地轉(zhuǎn)化為結(jié)構(gòu)化的字符和圖表，并基于Word或Excel形式進(jìn)行保存，大大提高關(guān)鍵信息提取的效率，降低人力成本。

01?文檔關(guān)鍵信息抽取與版面恢復(fù)實(shí)踐

小伙伴肯定好奇，如何才能快速上手這么經(jīng)典的深度學(xué)習(xí)產(chǎn)業(yè)應(yīng)用呢？針對(duì)以上企業(yè)需求，飛槳開(kāi)源了PP-StructureV2智能文檔分析系統(tǒng)，支持版面分析、表格識(shí)別、關(guān)鍵信息抽取、版面復(fù)原等功能模塊獨(dú)立使用或靈活搭配。同時(shí)，飛槳也聯(lián)合Intel建設(shè)了文檔關(guān)鍵信息抽取與版面恢復(fù)產(chǎn)業(yè)實(shí)踐范例，基于PP-StructureV2 Pipeline詳解模型訓(xùn)練及調(diào)優(yōu)經(jīng)驗(yàn)以及如何基于Intel?OpenVINO快速部署，優(yōu)化CPU推理任務(wù)性能，極致利用Intel x86硬件資源。

項(xiàng)目鏈接

https://aistudio.baidu.com/aistudio/projectdetail/5666281?contributionType=1

場(chǎng)景難點(diǎn)

書面文檔中存在拍照、掃描、手寫體等情況，識(shí)別難度大；
文檔版式多種多樣，且版面元素大小不統(tǒng)一；
基于CPU的AI算法部署成本高，嵌入式芯片的開(kāi)發(fā)復(fù)雜度高，算法集成難。

方案設(shè)計(jì)

本次分享主要展示的是文檔關(guān)鍵信息抽取和版面恢復(fù)任務(wù)。在該任務(wù)中，圖像類的文檔首先經(jīng)過(guò)版面分析模型，被劃分為文本、表格、圖像等不同區(qū)域，隨后對(duì)這些區(qū)域分別識(shí)別，如將表格區(qū)域送入表格識(shí)別模塊進(jìn)行結(jié)構(gòu)化識(shí)別，將文本區(qū)域送入PaddleOCR進(jìn)行文字識(shí)別，最后使用版面恢復(fù)模塊將其恢復(fù)為與原始圖像布局一致的Word文件。

PP-StructureV2 模型優(yōu)化策略和效果

版面分析任務(wù)中使用基于PP-PicoDet的輕量級(jí)版面分析模型，速度提升11倍，CPU上可實(shí)時(shí)推理。同時(shí)基于FGD知識(shí)蒸餾技術(shù)，在保證精度的情況下進(jìn)一步壓縮模型體積，預(yù)測(cè)速度比教師模型快1倍。
表格識(shí)別任務(wù)中提出了 SLANet (Structure Location Alignment Network)網(wǎng)絡(luò)結(jié)構(gòu)，其中包含CPU友好型輕量級(jí)骨干網(wǎng)絡(luò)PP-LCNet，實(shí)現(xiàn)更優(yōu)的“精度-速度”均衡；輕量級(jí)高低層特征融合模塊CSP-PAN，有效解決尺度變化較大等復(fù)雜場(chǎng)景中的模型預(yù)測(cè)問(wèn)題結(jié)構(gòu)，表格識(shí)別模型精度從0.97%提升至75.68%，預(yù)測(cè)速度提升10%；結(jié)構(gòu)與位置信息對(duì)齊的特征解碼模塊SLAHead，將最終模型精度從75.68%提高至77.7%。

模型部署

使用OpenVINO作為推理后端，倍數(shù)級(jí)提升任務(wù)在CPU側(cè)的處理速度。
基于OpenVINO的performance hint策略，根據(jù)使用場(chǎng)景的不同需求，自動(dòng)完成多線程任務(wù)配置，優(yōu)化模型吞吐量或推理延遲。

本項(xiàng)目的最終部署環(huán)境為Intel x86平臺(tái)設(shè)備?？紤]開(kāi)發(fā)便捷性，本次示例使用Python部署開(kāi)發(fā)環(huán)境。該系統(tǒng)是由版面分析、文本檢測(cè)、文本識(shí)別、表格結(jié)構(gòu)識(shí)別等4個(gè)模型所構(gòu)建的Pipeline，可以實(shí)現(xiàn)文檔圖片的快速格式化功能。在飛槳人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)AI Studio中也提供了完整的使用示例與開(kāi)發(fā)說(shuō)明，可參考該教程快速學(xué)習(xí)，并針對(duì)實(shí)際項(xiàng)目進(jìn)行開(kāi)發(fā)和集成。

02?精彩課程預(yù)告

為了讓小伙伴們更便捷地應(yīng)用范例教程，OpenVINO AI軟件工程師Ethan將于3月23日（周四）20:15為大家深度解析從數(shù)據(jù)準(zhǔn)備、方案設(shè)計(jì)到模型優(yōu)化部署的開(kāi)發(fā)全流程，手把手教大家進(jìn)行代碼實(shí)踐。

掃碼報(bào)名直播課，加入技術(shù)交流群

標(biāo)簽：