[軟件工具]-批量提取PDF指定內容，根據PDF內容重命名文件名

2022-06-30 11:32 作者:全部告訴你 0人讀過 | 我要投稿

如何提取批量提取PDF指定內容，然后根據內容重命名，今天我們全部告訴你

文章結尾有對應的軟件下載哦

場景：

案例1：人事部人員掃描了幾百份簡歷，保存為PDF格式，但是名字是一串數(shù)字，不好分辨，有沒有能識別里面姓名內容并自動重命名文件的方法

案例2：財務小姐姐有的批量導出很多PDF電子發(fā)票，導出來大多是沒辦法區(qū)分的文件名，需要用發(fā)票號，發(fā)票代碼，買方名字來重命名，后期對文件進行快速檢索

能復制我們采用坐標法提取，就是根據x，y，width，height進行文件位置的提取，現(xiàn)在很多接口都公開了PDF位置提取，例如這張發(fā)票來舉例，如果是電子發(fā)票

無論怎么變，這些信息都是有的，我們會拿到坐標，然后去讀取，對應位置的文字信息比如這兩個位置的坐標，長寬度：

是從X軸，Y軸，長度，寬度，去讀取數(shù)據，同樣的方法，簡歷也是一樣，姓名需要出現(xiàn)在固定位置，有判斷的依據，最后把文件導入做好的軟件內，進行數(shù)據處理就好了，可以看見下圖：

可以支持按照單個文件處理，也可以單個文件夾，多個文件夾處理，這個只能處理發(fā)票，需要處理其他文件要去鎖定要處理文件的指定坐標就可以了，然后讀取內容進行文字識別處理，抓出來關鍵信息，對文件進行重命名即可

文件不可復制，那么文件就是圖片，如果是圖片我們首先第一步是將PDF拆解成圖片，然后將圖片用同樣的方法是拿到這個圖的指定位置的坐標起始x，y，width，height，定位一個矩形，然后去用OCR進行光學識別得到文字，然后再操作改名

指定內容呢就是要拿到指定位置坐標，PDF是圖片呢就需要對圖片進行光學的ocr,當然中間還有一步就是對PDF進行圖片的拆解，拆解圖片后再進行識別，然后拿到制定內容的文件名改名就好了

PDF可復制下載：

百度鏈接：https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688?

PDF不可復制OCR下載：

百度鏈接：https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866?

標簽：