基于modi的ocr教程
之前使用pdg2pic的時候,軟件彈出提示:“找不到MODI_Engine.exe”,導(dǎo)致pdg無法在轉(zhuǎn)換成pdf的同時ocr。
于是我去翻老馬博客,發(fā)現(xiàn)老馬又對ocr相關(guān)程序進行了更新,見:用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD[1],新增了橋接器MODI_Engine。各軟件不再直接調(diào)用modi,而是通過橋接器MODI_Engine.exe進行調(diào)用。提示也說少的是這個東西。
我安裝modi比較早,那時還需要從office2003、2007中復(fù)制文件和注冊表項。這種方法不需要MODI_Engine,所以能一直用到現(xiàn)在,只是不知道為啥突然就不能使用了。
此次老馬更新的ocr教程更適合新手使用,只需無腦安裝程序就行。因此做個分享。
需要安裝的程序
下載地址:https://www.cnblogs.com/stronghorse/p/14594337.html
總共需要安裝3個程序,分別是:
MODI_Engine.exe(位于原創(chuàng)軟件
文件夾下)
Setup_MODI_From_Office2007SP3.exe
Setup_MODI_OCR_Engine_From_Office2007SP3.exe(都位于OCR>>精簡版獨立安裝包
文件夾下)


報錯:“應(yīng)用程序缺少組件。請重新安裝該應(yīng)用程序?!?/p>
這是因為我安裝過舊版的MODI引擎,與新版生沖突。
需要刪除以下文件夾:
C:\Program Files (x86)\Common Files\microsoft shared\OFFICE12
如果是x86版Windows,則刪除:
C:\Program Files\Common Files\microsoft shared\OFFICE12
注意:MODI_Engine.exe最好在設(shè)置里以管理員方式運行。
好了,以上就是安裝的步驟了。很簡單。然后就是如何使用。
應(yīng)用場景
1.pdg轉(zhuǎn)pdf、pic轉(zhuǎn)pdf、djvu轉(zhuǎn)pdf的過程中順便ocr,生成雙層pdf
這三種情況都可以直接使用老馬軟件。
因為大部分掃描電子書的源文件都是pdg,所以這樣應(yīng)用的頻率應(yīng)該是最高的。

2. 直接對pdf進行ocr,生成雙層pdf
對于不想折騰各種格式的電子書的人來說,絕大部分電子書都是pdf的。
如果用老馬的軟件在pdf的基礎(chǔ)上進行ocr,需要將pdf導(dǎo)出為png,然后用Pic2Pdf轉(zhuǎn)換,還是多了一道流程。(當(dāng)然,如果要用ComicEnhancerPro(CEP)對png進行處理,更方便閱覽的話,則不算麻煩。)
因此,可以選擇同樣基于modi進行ocr的軟件:pdf補丁丁。
下載地址:https://www.cnblogs.com/pdfpatcher/

pdf補丁丁還有一個優(yōu)點:方便校對ocr的文字。老馬給出的校對方案是顯示隱藏文本后用Foxit Phantom校對,見:《校對雙層PDF中的隱藏文本》[2]。而pdf補丁丁會直接生成xml文件,用txt打開即可校對修改。
? 注意
如果無法ocr,請嘗試將軟件以管理員方式運行。
3. ocr并導(dǎo)出結(jié)果至word
這種情況是只需要文本,而不需要原來的掃描pdf。ocr后的文本可以進行更多的操作,比如制作epub格式的電子書。
此外,modi發(fā)送到word中的ocr結(jié)果是經(jīng)過段落合并的。上面兩種ocr生成的雙層pdf,文字只會按行合并。復(fù)制出來每行要刪除空格。老馬此次折騰為的就是這個。
安裝精簡版MODI后,會在桌面上創(chuàng)建MSPVIEW圖標。
MSPVIEW只能導(dǎo)入tiff和mdi兩種格式。因為所有的ocr操作均只針對二值化(純黑白)圖像,而modi內(nèi)部處理的二值化效果不如老馬開發(fā)的cep。
首先需要用cep將圖像導(dǎo)出為“純黑白”的單頁tiff。然后用TiffToy(軟件可在原創(chuàng)軟件
中找到)把全部單頁tiff合并成一個多頁tiff文件(此多頁tiff文件最好不要超過300頁,不然ocr可能會出問題)。
導(dǎo)入多頁tiff文件到MSPVIEW后,點擊工具欄的“使用ocr識別文本”、“將文本發(fā)送到word”即可。

從理論上來說,把jpg、png等文件用TiffToy直接合并成多頁tiff可是可以的。只是ocr效果可能不如經(jīng)過cep處理的。
各種ocr軟件綜評
ocr的模型大多數(shù)是各個公司訓(xùn)練的。微軟的這個不知道自office之后有沒有更新。但文中非印刷的繁體豎排識別效果不如白描(用的百度接口)。
相比于天若、白描這些軟件,modi的方便之處在于純免費,不用聯(lián)網(wǎng),可批量處理。更重要的是,與老馬系列軟件可以完美配合,所以更適用于電子書的ocr。
引用鏈接
[1]
用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD:https://www.cnblogs.com/stronghorse/p/16324372.html[2]
《校對雙層PDF中的隱藏文本》:https://www.cnblogs.com/stronghorse/p/4913425.html