散文網(wǎng) » 生活 »日常 » PaddleOCR實現(xiàn)批量文件識別和輸出（存入Excel）

PaddleOCR實現(xiàn)批量文件識別和輸出（存入Excel）

2023-10-07 16:32 作者:AcePlay 0人讀過 | 我要投稿

前言

? ? ? ?為找到一款自用的開源OCR，體驗百度的PaddleOCR基礎(chǔ)功能后，可以滿足圖片文字識別的需求；本篇總結(jié)一些在Windows 10（64位）環(huán)境下的使用經(jīng)驗，實現(xiàn)批量文件識別和輸出（存入Excel）。

PaddeOCR安裝

? ? ? ?登陸官網(wǎng)（https://www.paddlepaddle.org.cn），進入相應(yīng)頁面查看安裝教程，按操作說明安裝部署PaddleOCR（需要python環(huán)境），本篇不作介紹。

修改說明

? ? ? ?PaddleOCR安裝部署完成后，可以使用教程中的腳本運行，對一個指定的圖片進行文字識別，并生成一個新圖片，該圖片包含識別結(jié)果和說明。

? ? ? ?所以按教程的腳本使用，無法直接使用提取出的文字（因為包含在圖片中）；其次每次運行只操作一個文件，不夠效率?；谝陨蟽蓚€原因，需要我們自己修改來實現(xiàn)以下效果：

? ? （1）啟動OCR

? ? ? ?每次要運行教程腳本，需要先打開命令行，進入anaconda3的PaddleOCR環(huán)境（教程推薦使用anaconda3），再用python運行.py教程腳本；所以將以上過程編輯為.bat文件，雙擊運行就可以簡化以上重復(fù)步驟。

? ? （2）文件批量操作

? ? ??教程腳本代碼只執(zhí)行一次文件操作，所以修改代碼使其對文件批量操作。

? ? （3）將所有結(jié)果輸出至Excel

? ? ? 修改教程腳本代碼，使輸出結(jié)果（文字部分）存入Excel，方便使用。

具體操作

????（1）編輯啟動腳本

????????新建一個txt文件，并寫入以下腳本，再修改后綴名為.bat文件。

????（2）修改OCR源代碼

????????在PaddleOCR安裝目錄下，找到并用記事本打開paddleocr.py，修改其中對應(yīng)的函數(shù)，事先備份paddleocr.py。

????（3）編輯運行文件

????????新建一個txt文件，并寫入以下腳本，再修改后綴名為.py文件（例：OCRoutput.py），再放入PaddleOCR安裝目錄下。

? ? （4）使用過程（案例）

? ? ????PaddleOCR安裝目錄下新建的img文件夾，放入2個測試圖片：Example-1.png和Example-2.png，運行第一步中的腳本（OCRBat.bat），等待程序運行完，打開result.xlsx確認結(jié)果。

總結(jié)

? ? ? ?本篇僅使用教程中【快速開始】介紹的基礎(chǔ)識別功能，還不涉及深度學習和訓(xùn)練等功能，有進一步需求的小伙伴可以繼續(xù)深入研究和使用。

標簽：