最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于modi的ocr教程

2023-05-08 15:25 作者:ToBeABooker  | 我要投稿

之前使用pdg2pic的時候,軟件彈出提示:“找不到MODI_Engine.exe”,導(dǎo)致pdg無法在轉(zhuǎn)換成pdf的同時ocr。

于是我去翻老馬博客,發(fā)現(xiàn)老馬又對ocr相關(guān)程序進行了更新,見:用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD[1],新增了橋接器MODI_Engine。各軟件不再直接調(diào)用modi,而是通過橋接器MODI_Engine.exe進行調(diào)用。提示也說少的是這個東西。

我安裝modi比較早,那時還需要從office2003、2007中復(fù)制文件和注冊表項。這種方法不需要MODI_Engine,所以能一直用到現(xiàn)在,只是不知道為啥突然就不能使用了。

此次老馬更新的ocr教程更適合新手使用,只需無腦安裝程序就行。因此做個分享。

需要安裝的程序

下載地址:https://www.cnblogs.com/stronghorse/p/14594337.html

總共需要安裝3個程序,分別是:

MODI_Engine.exe(位于原創(chuàng)軟件文件夾下)

Setup_MODI_From_Office2007SP3.exe

Setup_MODI_OCR_Engine_From_Office2007SP3.exe(都位于OCR>>精簡版獨立安裝包文件夾下)

  • 報錯:“應(yīng)用程序缺少組件。請重新安裝該應(yīng)用程序?!?/p>

這是因為我安裝過舊版的MODI引擎,與新版生沖突。

需要刪除以下文件夾:

C:\Program Files (x86)\Common Files\microsoft shared\OFFICE12

如果是x86版Windows,則刪除:

C:\Program Files\Common Files\microsoft shared\OFFICE12

  • 注意:MODI_Engine.exe最好在設(shè)置里以管理員方式運行。

好了,以上就是安裝的步驟了。很簡單。然后就是如何使用。

應(yīng)用場景

1.pdg轉(zhuǎn)pdf、pic轉(zhuǎn)pdf、djvu轉(zhuǎn)pdf的過程中順便ocr,生成雙層pdf

這三種情況都可以直接使用老馬軟件。

因為大部分掃描電子書的源文件都是pdg,所以這樣應(yīng)用的頻率應(yīng)該是最高的。

2. 直接對pdf進行ocr,生成雙層pdf

對于不想折騰各種格式的電子書的人來說,絕大部分電子書都是pdf的。

如果用老馬的軟件在pdf的基礎(chǔ)上進行ocr,需要將pdf導(dǎo)出為png,然后用Pic2Pdf轉(zhuǎn)換,還是多了一道流程。(當(dāng)然,如果要用ComicEnhancerPro(CEP)對png進行處理,更方便閱覽的話,則不算麻煩。)

因此,可以選擇同樣基于modi進行ocr的軟件:pdf補丁丁。

下載地址:https://www.cnblogs.com/pdfpatcher/

pdf補丁丁還有一個優(yōu)點:方便校對ocr的文字。老馬給出的校對方案是顯示隱藏文本后用Foxit Phantom校對,見:《校對雙層PDF中的隱藏文本》[2]。而pdf補丁丁會直接生成xml文件,用txt打開即可校對修改。

? 注意

如果無法ocr,請嘗試將軟件以管理員方式運行。

3. ocr并導(dǎo)出結(jié)果至word

這種情況是只需要文本,而不需要原來的掃描pdf。ocr后的文本可以進行更多的操作,比如制作epub格式的電子書。

此外,modi發(fā)送到word中的ocr結(jié)果是經(jīng)過段落合并的。上面兩種ocr生成的雙層pdf,文字只會按行合并。復(fù)制出來每行要刪除空格。老馬此次折騰為的就是這個。

安裝精簡版MODI后,會在桌面上創(chuàng)建MSPVIEW圖標。

MSPVIEW只能導(dǎo)入tiff和mdi兩種格式。因為所有的ocr操作均只針對二值化(純黑白)圖像,而modi內(nèi)部處理的二值化效果不如老馬開發(fā)的cep。

首先需要用cep將圖像導(dǎo)出為“純黑白”的單頁tiff。然后用TiffToy(軟件可在原創(chuàng)軟件中找到)把全部單頁tiff合并成一個多頁tiff文件(此多頁tiff文件最好不要超過300頁,不然ocr可能會出問題)。

導(dǎo)入多頁tiff文件到MSPVIEW后,點擊工具欄的“使用ocr識別文本”、“將文本發(fā)送到word”即可。

從理論上來說,把jpg、png等文件用TiffToy直接合并成多頁tiff可是可以的。只是ocr效果可能不如經(jīng)過cep處理的。

各種ocr軟件綜評

ocr的模型大多數(shù)是各個公司訓(xùn)練的。微軟的這個不知道自office之后有沒有更新。但文中非印刷的繁體豎排識別效果不如白描(用的百度接口)。

相比于天若、白描這些軟件,modi的方便之處在于純免費,不用聯(lián)網(wǎng),可批量處理。更重要的是,與老馬系列軟件可以完美配合,所以更適用于電子書的ocr。

引用鏈接

[1]用MODI一次OCR一整本書并將結(jié)果發(fā)送到WORD:https://www.cnblogs.com/stronghorse/p/16324372.html
[2]《校對雙層PDF中的隱藏文本》:https://www.cnblogs.com/stronghorse/p/4913425.html


基于modi的ocr教程的評論 (共 條)

分享到微博請遵守國家法律
宾阳县| 武邑县| 特克斯县| 色达县| 江北区| 邢台县| 林西县| 原平市| 昌吉市| 平塘县| 揭阳市| 汝阳县| 凌源市| 吉隆县| 象州县| 昌乐县| 怀仁县| 温宿县| 苍溪县| 双牌县| 铜山县| 霞浦县| 余江县| 靖安县| 修水县| 绍兴县| 闽侯县| 海盐县| 九江县| 阜阳市| 灯塔市| 曲松县| 兴化市| 丰镇市| 德州市| 酒泉市| 厦门市| 山东| 怀远县| 罗田县| 沙田区|