手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » 快速分析基金季度報數(shù)據(jù)！附 3 種 PDF 類型數(shù)據(jù)解析方式

快速分析基金季度報數(shù)據(jù)！附 3 種 PDF 類型數(shù)據(jù)解析方式

2021-04-02 10:33 作者:愛數(shù)據(jù)分析社區(qū) 0人讀過 | 我要投稿

來源：早起Python

大家好，從 PDF 中提取信息是辦公場景中經(jīng)常需要用到的操作，也是經(jīng)常有讀者在后臺問的一個操作。

內(nèi)容少的話我們可以手動復制粘貼，但如果需要批量提取就可以考慮使用 Python，之前我也轉(zhuǎn)載過相關(guān)文章，提到主要就是使用pdfplumber庫，今天我們再次舉例講解。

通常 PDF 里的表格分為圖片型和文本型。文本型又分簡單型和復雜型。本文就針對這三部分舉例講解。

提取簡單型表格
提取較為復雜型表格
提取圖片型表格

用到的模塊主要有

pdfplumber
pandas
Tesseract
PIL

文中出現(xiàn)的 PDF 材料是在巨潮資訊官網(wǎng)下載的公開 PDF 文件，主題是關(guān)于理財?shù)模嚓P(guān)發(fā)布信息等信息如下：

內(nèi)容總共有 6 頁，后文中的例子會有展示。

01

簡單文本類型數(shù)據(jù)

簡單文本類型表格就是一頁 PDF 中只有一個表格，并且表格內(nèi)容完整可復制，例如我們選定內(nèi)容為 PDF 中的第四頁，內(nèi)容如下：

可以看到，該頁只有一個表格，下面我們將這個表寫入 Excel 中，先上代碼

得到的結(jié)果如下：

通過與 PDF 上原表格對比，在內(nèi)容上是完全一致的，唯一不同的是由于主營業(yè)務(wù)內(nèi)容較多，導致顯示的不全面，現(xiàn)在來說說這段代碼。

首先導入要用到的兩個庫。在pdfplumber中，open()函數(shù)是用來打開 PDF 文件，該代碼用的是相對路徑。.open().pages則是獲取 PDF 的頁數(shù)，打印 ps 值可以得到如下

pg = ps[3]代表的就是我們所選的第三頁。

pg.extract_tables()：可輸出頁面中所有表格，并返回一個嵌套列表，其結(jié)構(gòu)層次為table→row→cell。此時，頁面上的整個表格被放入一個大列表中，原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素，得到的便是由原表格同一行元素構(gòu)成的列表。

與其類似的是pg.extract_table( )：返回多個獨立列表，其結(jié)構(gòu)層次為row→cell。若頁面中存在多個行數(shù)相同的表格，則默認輸出頂部表格；否則，僅輸出行數(shù)最多的一個表格。此時，表格的每一行都作為一個單獨的列表，列表中每個元素即為原表格的各個單元格內(nèi)容。

由于該頁面中只有一個表格，我們需要tables集合中的第一個元素。

打印table值，如下：

以看到在上述中是存在\n這種沒不要的字符，它的作用其實是換行但我們在 Excel中是不需要的。所以需要剔除它，用代碼中的 for 循環(huán)與replace函數(shù)將控制替換成空格(即刪除\n)。觀察 table 是一個裝有 2 個元素的列表。

最后df1 = pd.DataFrame(table[1:],columns = table[0])這段代碼的作用就是創(chuàng)建一個數(shù)據(jù)框，將內(nèi)容放到對應(yīng)的行列中。

本代碼只是簡單將數(shù)據(jù)存入到Excel，如果你需要進一步對樣式進行調(diào)整，可以使用openpyxl等模塊進行修改

02

復雜型表格提取

復雜型表格即表格樣式不統(tǒng)一或一頁中有多個表格，以 PDF 中的第五頁為例：

可以看到本頁中有兩個大的表格，并且細看的話，其實是 4 個表格，按照簡單型表格類型提取方法

得到的效果如下：

可以看到，只是將全部表格文本提取出來，但實際上第一個表格又細分為兩個表，所以需要我們進一步修改，將這張表再次拆分！

例如，提取上半部分代碼如下：

這段代碼在簡單型表格提取的基礎(chǔ)上進行了修改，第十四行代碼的作用就是提取另外一個表頭的信息，并將他賦值給 df2，而后對 df2 進行重命名操作(用到rename函數(shù))。

打印 df2 可以看出columns列名和第一行信息重復了，因此我們需要重復剛剛的步驟，利用loc()函數(shù)切割數(shù)據(jù)框。

注意，我們這里用了罕見的pandas.Excelwriter函數(shù)套 for 循環(huán)，這個是為了避免直接寫入導致的最后數(shù)據(jù)覆蓋原數(shù)據(jù)，感興趣可以嘗試一下不用 withopen 這種方法后結(jié)果。最終得到的效果如下：

可以看到，現(xiàn)在這個表格就被放在兩個 sheet 中單獨展示，當然用于對比放在一張表中也是可以的

說到底復雜型表格的主觀性是非常大的，需要根據(jù)不同情況進行不同處理，想寫出一個一勞永逸的辦法是比較困難的！

03

圖片型表格提取

最后也是最難處理的就是圖片型表格，經(jīng)常有人會問如何提取圖片型 PDF 中的表格/文本等信息。

其實本質(zhì)上就是提取圖片，之后如何對圖片進一步處理提取信息就與 Python 提取 PDF 表格這個主題沒有太大關(guān)系了！

這里我們也簡單進行介紹，也就是先提取圖片再進行 OCR 識別提取表格，在 Python 中可以使用Tesseract庫，首先需要 pip 安裝

pip install pytesseract

在 Python 中安裝完這個庫之后我們需要安裝 exe 文件以在后面代碼用到。

http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

下載安裝完即可，注意目前如果按照正常步驟安裝的話是不會識別中文的，所以需要安裝簡體中文語言包，下載地址為https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata，將其放到Tesseract-OCR的 tessdata 目錄下即可。

接下來我們使用一個簡單的圖片型 pdf 如下：