[軟件工具]-批量提取PDF指定內容,根據PDF內容重命名文件名
如何提取批量提取PDF指定內容,然后根據內容重命名,今天我們全部告訴你
文章結尾有對應的軟件下載哦
場景:
案例1:人事部人員掃描了幾百份簡歷,保存為PDF格式,但是名字是一串數(shù)字,不好分辨,有沒有能識別里面姓名內容并自動重命名文件的方法
案例2:財務小姐姐有的批量導出很多PDF電子發(fā)票,導出來大多是沒辦法區(qū)分的文件名,需要用發(fā)票號,發(fā)票代碼,買方名字來重命名,后期對文件進行快速檢索
PDF文件可復制類型:
能復制我們采用坐標法提取,就是根據x,y,width,height進行文件位置的提取,現(xiàn)在很多接口都公開了PDF位置提取,例如這張發(fā)票來舉例,如果是電子發(fā)票

無論怎么變,這些信息都是有的,我們會拿到坐標,然后去讀取,對應位置的文字信息比如這兩個位置的坐標,長寬度:

是從X軸,Y軸,長度,寬度,去讀取數(shù)據,同樣的方法,簡歷也是一樣,姓名需要出現(xiàn)在固定位置,有判斷的依據,最后把文件導入做好的軟件內,進行數(shù)據處理就好了,可以看見下圖:

可以支持按照單個文件處理,也可以單個文件夾,多個文件夾處理,這個只能處理發(fā)票,需要處理其他文件要去鎖定要處理文件的指定坐標就可以了,然后讀取內容進行文字識別處理,抓出來關鍵信息,對文件進行重命名即可
PDF文件不可復制類型:
文件不可復制,那么文件就是圖片,如果是圖片我們首先第一步是將PDF拆解成圖片,然后將圖片用同樣的方法是拿到這個圖的指定位置的坐標起始x,y,width,height,定位一個矩形,然后去用OCR進行光學識別得到文字,然后再操作改名


指定內容呢就是要拿到指定位置坐標,PDF是圖片呢就需要對圖片進行光學的ocr,當然中間還有一步就是對PDF進行圖片的拆解,拆解圖片后再進行識別,然后拿到制定內容的文件名改名就好了
PDF可復制下載:
百度鏈接:https://pan.baidu.com/s/1E-3DEntS_VMIrI3NLh4Wvw?pwd=6688?
PDF不可復制OCR下載:
百度鏈接:https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866?