PP-OCR與文心一言強強結(jié)合,無須訓練,信息抽取精度超80%!
眾所周知,文本圖像的智能分析面臨諸多挑戰(zhàn)。首先,文本圖像的
場景非常多樣
,比如論文、書籍、說明書、合同等,模型的泛化性難以滿足要求。其次,有的
場景比較復雜
,比如
生僻字、表格和多頁PDF
等,模型難以達到理想的精度。最后,
部署繁瑣
,模型部署涉及諸多技術(shù)細節(jié),影響落地效率。 在大模型時代,LLM會帶來怎樣的幫助呢? 近期,我們發(fā)布了一個融合了文心一言和PP-OCRv4的文檔圖像信息抽取神器——PP-ChatOCRv2。一個SDK,覆蓋
20+
高頻應用場景,支持
5種
文本圖像智能分析能力和部署,包括通用場景關(guān)鍵信息抽?。爝f單、營業(yè)執(zhí)照和機動車行駛證等)、復雜文檔場景關(guān)鍵信息抽?。ń鉀Q生僻字、特殊標點、
多頁PDF、表格
等難點問題)、通用OCR、文檔場景專用OCR、通用表格識別。此外針對垂類業(yè)務場景,也支持模型訓練、微調(diào)和Prompt優(yōu)化。 讓我們先看看效果。
PP-ChatOCRv2 效果速覽
PP-ChatOCRv2在線體驗傳送門:
https://aistudio.baidu.com/application/detail/10368 PP-ChatOCRv2有四方面特色:
場景豐富:
支持5種智能文本圖像分析能力,覆蓋20+高頻應用場景,尤其針對復雜文檔場景進行了專項優(yōu)化。
精準度高:
「PP-OCR」與「文心一言」強強結(jié)合,支持 1.5萬+大字庫,專項優(yōu)化生僻字、多頁PDF、 表格等難題。無需訓練即可在20+場景關(guān)鍵息抽取平均準確率達80%以上。
一鍵部署:
一鍵獲取PP-ChatOCRv2離線部署SDK,助力企業(yè)快速實現(xiàn)工程落地。
便捷開發(fā):
針對垂類業(yè)務場景,可靈活替換微調(diào)后的OCR模型,支持自定義Prompt優(yōu)化。
下面我們將詳細介紹這款神器的特色。
場景豐富
PP-ChatOCRv2支持的5種智能文本圖像分析能力如下表所示:
覆蓋以下20+高頻應用場景:
營業(yè)執(zhí)照、機動車行駛證、駕照、車檢證、增值稅發(fā)票、高速發(fā)票、商場發(fā)票、火車票、航空電子行程單(飛機發(fā)票)、快遞單號、快車/出租車行程單、身份證、社保卡、銀行卡、名片、身份證、社???、戶口本、結(jié)婚證、出生證、房產(chǎn)證、港澳通行證、臺灣通行證、保險單、銀行電子回單等
。 此外,PP-ChatOCRv2 針對復雜文檔場景進行了專項優(yōu)化。
精準度高
PP-ChatOCRv2通用文本圖像智能分析系統(tǒng)由OCR系統(tǒng)和文心大模型串聯(lián)完成,OCR系統(tǒng)中集成了文本檢測、文本識別、版面分析、表格識別等多個功能,可實現(xiàn)CPU/GPU上的實時預測,在通用場景上達到80%+的平均準確率。文心大語言模型可以將海量數(shù)據(jù)和知識融合,準確率高且應用廣泛。 PP-ChatOCRv2的技術(shù)流程如下圖所示:首先輸入預測圖片,送入通用OCR系統(tǒng),經(jīng)過版面分析后,預測圖像中的文字信息和表格結(jié)構(gòu)。將OCR預測出的文字、表格結(jié)構(gòu)與Query之間進行向量檢索,得到與Query相關(guān)的文本信息。然后送入Prompt生成器重新組合成Prompt,最終傳給大模型獲得預測結(jié)果。
PP-ChatOCRv2 技術(shù)流程圖
一鍵部署
PP-ChatOCRv2 的部署非常簡單,選擇好部署環(huán)境,一鍵獲取SDK部署包。一個SDK,通過不同配置文件,完成5種智能文本圖像分析任務推理。目前支持部署在Linux 操作系統(tǒng),使用NVIDIA GPU和X86 CPU推理,后續(xù)規(guī)劃適配到更多國產(chǎn)硬件,并且提供服務化部署和端側(cè)部署能力。
便捷開發(fā)
除上述特色外,這款神器也提供了便捷的二次開發(fā)功能,可靈活替換微調(diào)后的OCR模型,支持自定義Prompt優(yōu)化。通過UI界面點擊和少量文本內(nèi)容修改,即可便捷地完成二次開發(fā): Prompt優(yōu)化:通過配置文件的方式暴露必要接口,開發(fā)者可以通過配置文件選擇場景模版、修改few-shot指令,通過少量的代碼即可完成特定場景的預處理和后處理,減小開發(fā)成本。
OCR模型優(yōu)化:PaddleX支持用戶基于自有數(shù)據(jù)進行OCR模型的訓練微調(diào),進而替換PP-ChatOCRv2中的OCR模型,獲得更優(yōu)的推理效果。
Prompt優(yōu)化示意
OCR 模型微調(diào)示意
PaddleX是面向國內(nèi)外主流AI硬件的,全流程、高效率的飛槳精選AI模型的一站式AI開發(fā)套件,目前覆蓋10+主流AI任務下的40+精選模型全流程開發(fā),提供了PP-ChatOCRv2、大模型半監(jiān)督學習工具和PP-TSv2三大特色工具。PP-ChatOCRv2作為一個通用文本圖像智能分析工具,旨在為大家?guī)鞮LM加持下的效率提升。
PP-ChatOCRv2 工具首頁:
https://aistudio.baidu.com/projectdetail/paddlex/7050167
感興趣的同學歡迎加入PaddleX官方頻道,和大家一起討論PP-ChatOCRv2開發(fā)經(jīng)驗,傳送門:
https://aistudio.baidu.com/community/channel/610