基于modi的ocr教程

2023-05-08 15:25 作者:ToBeABooker 0人讀過 | 我要投稿

之前使用pdg2pic的時候，軟件彈出提示：“找不到MODI_Engine.exe”，導(dǎo)致pdg無法在轉(zhuǎn)換成pdf的同時ocr。

于是我去翻老馬博客，發(fā)現(xiàn)老馬又對ocr相關(guān)程序進行了更新，見：用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD[1]，新增了橋接器MODI_Engine。各軟件不再直接調(diào)用modi，而是通過橋接器MODI_Engine.exe進行調(diào)用。提示也說少的是這個東西。

我安裝modi比較早，那時還需要從office2003、2007中復(fù)制文件和注冊表項。這種方法不需要MODI_Engine，所以能一直用到現(xiàn)在，只是不知道為啥突然就不能使用了。

此次老馬更新的ocr教程更適合新手使用，只需無腦安裝程序就行。因此做個分享。

需要安裝的程序

下載地址：https://www.cnblogs.com/stronghorse/p/14594337.html

總共需要安裝3個程序，分別是：

MODI_Engine.exe（位于原創(chuàng)軟件文件夾下）

Setup_MODI_From_Office2007SP3.exe

Setup_MODI_OCR_Engine_From_Office2007SP3.exe（都位于OCR>>精簡版獨立安裝包文件夾下）

報錯：“應(yīng)用程序缺少組件。請重新安裝該應(yīng)用程序?！?/p>

這是因為我安裝過舊版的MODI引擎，與新版生沖突。

需要刪除以下文件夾：

C:\Program Files (x86)\Common Files\microsoft shared\OFFICE12

如果是x86版Windows，則刪除：

C:\Program Files\Common Files\microsoft shared\OFFICE12

注意：MODI_Engine.exe最好在設(shè)置里以管理員方式運行。

好了，以上就是安裝的步驟了。很簡單。然后就是如何使用。

應(yīng)用場景

1.pdg轉(zhuǎn)pdf、pic轉(zhuǎn)pdf、djvu轉(zhuǎn)pdf的過程中順便ocr，生成雙層pdf

這三種情況都可以直接使用老馬軟件。

因為大部分掃描電子書的源文件都是pdg，所以這樣應(yīng)用的頻率應(yīng)該是最高的。

2. 直接對pdf進行ocr，生成雙層pdf

對于不想折騰各種格式的電子書的人來說，絕大部分電子書都是pdf的。

如果用老馬的軟件在pdf的基礎(chǔ)上進行ocr，需要將pdf導(dǎo)出為png，然后用Pic2Pdf轉(zhuǎn)換，還是多了一道流程。（當(dāng)然，如果要用ComicEnhancerPro（CEP）對png進行處理，更方便閱覽的話，則不算麻煩。）

因此，可以選擇同樣基于modi進行ocr的軟件：pdf補丁丁。

下載地址：https://www.cnblogs.com/pdfpatcher/

pdf補丁丁還有一個優(yōu)點：方便校對ocr的文字。老馬給出的校對方案是顯示隱藏文本后用Foxit Phantom校對，見：《校對雙層PDF中的隱藏文本》[2]。而pdf補丁丁會直接生成xml文件，用txt打開即可校對修改。

? 注意

如果無法ocr，請嘗試將軟件以管理員方式運行。

3. ocr并導(dǎo)出結(jié)果至word

這種情況是只需要文本，而不需要原來的掃描pdf。ocr后的文本可以進行更多的操作，比如制作epub格式的電子書。

此外，modi發(fā)送到word中的ocr結(jié)果是經(jīng)過段落合并的。上面兩種ocr生成的雙層pdf，文字只會按行合并。復(fù)制出來每行要刪除空格。老馬此次折騰為的就是這個。

安裝精簡版MODI后，會在桌面上創(chuàng)建MSPVIEW圖標。

MSPVIEW只能導(dǎo)入tiff和mdi兩種格式。因為所有的ocr操作均只針對二值化（純黑白）圖像，而modi內(nèi)部處理的二值化效果不如老馬開發(fā)的cep。

首先需要用cep將圖像導(dǎo)出為“純黑白”的單頁tiff。然后用TiffToy（軟件可在原創(chuàng)軟件中找到）把全部單頁tiff合并成一個多頁tiff文件（此多頁tiff文件最好不要超過300頁，不然ocr可能會出問題）。

導(dǎo)入多頁tiff文件到MSPVIEW后，點擊工具欄的“使用ocr識別文本”、“將文本發(fā)送到word”即可。

從理論上來說，把jpg、png等文件用TiffToy直接合并成多頁tiff可是可以的。只是ocr效果可能不如經(jīng)過cep處理的。

各種ocr軟件綜評

ocr的模型大多數(shù)是各個公司訓(xùn)練的。微軟的這個不知道自office之后有沒有更新。但文中非印刷的繁體豎排識別效果不如白描（用的百度接口）。

相比于天若、白描這些軟件，modi的方便之處在于純免費，不用聯(lián)網(wǎng)，可批量處理。更重要的是，與老馬系列軟件可以完美配合，所以更適用于電子書的ocr。

引用鏈接

[1]用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD:https://www.cnblogs.com/stronghorse/p/16324372.html
[2]《校對雙層PDF中的隱藏文本》:https://www.cnblogs.com/stronghorse/p/4913425.html

標簽：