15. Python下Tesseract Ocr引擎及安裝介紹
tesseract 是一個google支持的開源ocr項目
其項目地址:https://github.com/tesseract-ocr/tesseract
目前最新的源碼可以在這里下載
2. Tesseract安裝包下載
Tesseract的release版本下載地址:https://github.com/tesseract-ocr/tesseract/wiki/Downloads,這里需要注意這一段話:
Currently, there is no official Windows installer for newer versions
意思就是官方不提供最新版windows平臺安裝包,只有相對略老的3.02.02版本,其下載地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/
最新版3.03和3.05版本,都是三方維護和管理的安裝包,有好幾個發(fā)行機構(gòu),分別是:
https://www.dropbox.com/s/8t54mz39i58qslh/tesseract-3.05.00dev-win32-vc19.zip?dl=1
https://github.com/UB-Mannheim/tesseract/wiki
http://domasofan.spdns.eu/tesseract/
3. 小結(jié)
官方發(fā)布的3.02版本下載地址
http://downloads.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe?r=https%3A%2F%2Fsourceforge.net%2Fprojects%2Ftesseract-ocr-alt%2Ffiles%2F&ts=1464880498&use_mirror=jaist
德國曼海姆大學發(fā)行的3.05版本下載地址
http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
imon Eigeldinger (@DomasoFan) 維護的另一個版本
http://3.onj.me/tesseract/ 值得稱道的是,這個網(wǎng)址里還有一個比較詳細的說明
4. Tesseract ocr使用
安裝之后,默認目錄C:\Program Files (x86)\Tesseract-OCR,你需要把這個路徑放到你操作系統(tǒng)的path搜索路徑中,否則后面使用起來會不方便。
在安裝目錄C:\Program Files (x86)\Tesseract-OCR下可以看到 tesseract.exe這個命令行執(zhí)行程序
tesseract 1.png output-l eng -psm 7
-psm 7 表示用單行文本識別 pagesegmode值:
0 =定向和腳本檢測(OSD)。
1 =帶OSD的自動頁面分割。
2 =自動頁面分割,但沒有OSD或OCR
3 =全自動頁面分割,但沒有OSD。(默認)
4 =假設(shè)一列可變大小的文本。
5 =假設(shè)一個統(tǒng)一的垂直對齊文本塊。
6 =假設(shè)一個統(tǒng)一的文本塊。
7 =將圖像作為單個文本行處理。
8 =把圖像當作一個單詞。
9 =把圖像當作一個圓圈中的一個詞來對待。
10 =將圖像作為單個字符處理