PaddleOCR實現(xiàn)批量文件識別和輸出(存入Excel)
前言

? ? ? ?為找到一款自用的開源OCR,體驗百度的PaddleOCR基礎(chǔ)功能后,可以滿足圖片文字識別的需求;本篇總結(jié)一些在Windows 10(64位)環(huán)境下的使用經(jīng)驗,實現(xiàn)批量文件識別和輸出(存入Excel)。
PaddeOCR安裝

? ? ? ?登陸官網(wǎng)(https://www.paddlepaddle.org.cn),進入相應(yīng)頁面查看安裝教程,按操作說明安裝部署PaddleOCR(需要python環(huán)境),本篇不作介紹。

修改說明
? ? ? ?PaddleOCR安裝部署完成后,可以使用教程中的腳本運行,對一個指定的圖片進行文字識別,并生成一個新圖片,該圖片包含識別結(jié)果和說明。

? ? ? ?所以按教程的腳本使用,無法直接使用提取出的文字(因為包含在圖片中);其次每次運行只操作一個文件,不夠效率?;谝陨蟽蓚€原因,需要我們自己修改來實現(xiàn)以下效果:
? ? (1)啟動OCR
? ? ? ?每次要運行教程腳本,需要先打開命令行,進入anaconda3的PaddleOCR環(huán)境(教程推薦使用anaconda3),再用python運行.py教程腳本;所以將以上過程編輯為.bat文件,雙擊運行就可以簡化以上重復(fù)步驟。
? ? (2)文件批量操作
? ? ??教程腳本代碼只執(zhí)行一次文件操作,所以修改代碼使其對文件批量操作。
? ? (3)將所有結(jié)果輸出至Excel
? ? ? 修改教程腳本代碼,使輸出結(jié)果(文字部分)存入Excel,方便使用。
具體操作
????(1)編輯啟動腳本
????????新建一個txt文件,并寫入以下腳本,再修改后綴名為.bat文件。
????(2)修改OCR源代碼
????????在PaddleOCR安裝目錄下,找到并用記事本打開paddleocr.py,修改其中對應(yīng)的函數(shù),事先備份paddleocr.py。
????(3)編輯運行文件
????????新建一個txt文件,并寫入以下腳本,再修改后綴名為.py文件(例:OCRoutput.py),再放入PaddleOCR安裝目錄下。
? ? (4)使用過程(案例)
? ? ????PaddleOCR安裝目錄下新建的img文件夾,放入2個測試圖片:Example-1.png和Example-2.png,運行第一步中的腳本(OCRBat.bat),等待程序運行完,打開result.xlsx確認結(jié)果。





總結(jié)

? ? ? ?本篇僅使用教程中【快速開始】介紹的基礎(chǔ)識別功能,還不涉及深度學習和訓(xùn)練等功能,有進一步需求的小伙伴可以繼續(xù)深入研究和使用。