IdxSubOcr:基于MODI的圖形字幕OCR軟件

首先簡單說一下幾個(gè)名詞,也就根據(jù)自己的理解簡單提一下,不必較真。
如果已經(jīng)了解可以直接跳過。

1.圖形字幕
????以圖片格式存儲(chǔ)的字幕(非文本),常見于idx/sub和SUP(PGS)等格式。idx/sub多見于DVD字幕,PGS字幕多見于BD和HDTV錄制源字幕。由于其不易修改性,需要調(diào)整的話多會(huì)用OCR的方式轉(zhuǎn)換成文本。
這兩種字幕如何提取,請參考:


2.MODI
????MODI全稱Microsoft Office Document Imaging,是微軟Office 2003/2007所帶的光學(xué)字符識(shí)別(OCR)組件,其OCR引擎采用清華文通和ScanSoft的技術(shù),支持21種語言,是一個(gè)方便的OCR工具。
3.IdxSubOcr
????基于MODI開發(fā)出來的圖形字幕OCR軟件,能將圖形字幕轉(zhuǎn)換成文本形式的srt字幕。
?????對于純簡體/繁體中文推薦使用此軟件,純?nèi)瘴囊部梢栽囋嚧塑浖艺J(rèn)為效果不是很理想。純英文、德文等推薦使用Subtitle Edit。


接下來是正文
一、安裝MODI
????“萬事開頭難”
????沒錯(cuò),安裝MODI是最重要的,也是最麻煩的。以下會(huì)給出3種方法來幫你安裝MODI的,但是并不能保證你真的可以安裝上??赡苁荳in10的鍋也可能是MODI的鍋,反正這鍋微軟背。
1.Office 2007下安裝MODI
????首先推薦此方法是因?yàn)榉€(wěn)定,只要你不作死,一般不會(huì)遇到掉MODI的情況。? ?
????由于MODI并不集成在office 2007以及之后的office版本中,而是以補(bǔ)丁的形式發(fā)布(對應(yīng)office 2007)。所以我們其實(shí)并不需要安裝Office 2007本體,而是直接安裝SharePoint Designer 2007就可以獲取到MODI功能了。
????但。。。。但是。。。
????微軟并不想背鍋,在去年刪除了SharePoint Designer 2007。沒想到巨硬會(huì)這么虎的,UP也就只存了繁體和簡體的版本??梢栽谖谋灸┪搏@取下載鏈接,請刪除.pdf后綴后再進(jìn)行解壓。
????下載完后打開SharePointDesigner_TC.exe這個(gè)安裝包。
????為了避免不必要的麻煩請務(wù)必解壓并用管理員權(quán)限打開。先安裝繁體是為了繁體識(shí)別會(huì)在默認(rèn)的位置。
????按如圖所示的方式安裝MODI

????繼續(xù)直至安裝完成。
????然后安裝SharePointDesigner_SC.exe,注意勾選語言,其余同上。
但。。。。但是。。。問題又來了。。。
????如果你使用的是Win10有一定概率是安裝不上的(可能是報(bào)錯(cuò),或者安裝完IdxSubOcr還是提示沒MODI),Win7就沒這種問題,所以這鍋微軟背。有很多人向我說過這個(gè)問題了,并且我有臺(tái)電腦也實(shí)際遇到了。這個(gè)你可以多嘗試安裝幾次(大概率是沒用的,小概率是硬盤沒空間了(???)),或者在安裝新系統(tǒng)后首先安裝MODI,大概率可以安裝上,就算安裝不上重裝系統(tǒng)也方便(不是)。嘛,重裝系統(tǒng)對大部分人是不可能了,既然給了三種方法當(dāng)然是先試完再看了。
????另外用此方法安裝MODI后,系統(tǒng)更新中會(huì)檢查出有關(guān)Office 2007相關(guān)的補(bǔ)丁,有潔癖的請注意(???)。還有就是SharePoint Designer 2007與Office 2016似乎有兼容性問題,可能只是我這個(gè)個(gè)例,前幾年遇到了就深受困擾,但也沒見其他人提過這個(gè)問題。后面換365倒也沒問題了。如果你在使用2016版本,請謹(jǐn)慎安裝。
2.Office 2003下安裝MODI
????Office 2003版是內(nèi)置有MODI的,你需要安裝完整版的Office 2003(不提供下載),選擇自定義安裝,然后將Office?工具"項(xiàng)下的“Microsoft Office Document Imaging”選項(xiàng)卡設(shè)置為“從本機(jī)運(yùn)行全部程序”。

????請務(wù)必安裝完整版Office2003,精簡版的基本是不包含MODI的。
????安裝?Office 2003的弊端也是顯而易見的。畢竟都2020年了,office365不香么,裝一個(gè)幾乎用不到的03版,外帶一堆補(bǔ)丁,實(shí)在是。。。膈應(yīng)。
3.使用老馬提供的MODI組件
????可以通過老馬的博客下載IdxSubOcr軟件和精簡過的MODI組件。
????網(wǎng)址https://www.cnblogs.com/stronghorse/
? ? 相關(guān)軟件的下載請看博客置頂?shù)奈恼隆?br/>


????以MODI_From_Office2007SP3這個(gè)為例,大概談一下如何安裝。此處并沒有圖示,主要是自己是用的第一種方法安裝上了,再折騰怕翻車ヾ(?ω?`)o
????解壓MODI_From_Office2007SP3目錄到磁盤,我這里以D盤根目錄為例;
????以管理員身份運(yùn)行CMD或PowerShell
CMD(管理員)
D:
cd D:\MODI_From_Office2007SP3
install.bat
PowerShell(管理員)
D:
cd D:\MODI_From_Office2007SP3
.\install.bat
?
或D:\MODI_From_Office2007SP3\install.bat
????之前有遇到使用前兩種方法失敗后,使用PS安裝上了MODI。但在使用IdxSubOcr識(shí)別文字時(shí)出現(xiàn)軟件閃屏的問題,可能只是個(gè)例。而且識(shí)別時(shí)間很短,后續(xù)校對階段就不影響了,問題不大。畢竟能安裝上就不容易了( ′??)?(._.`)
????如果還裝不上,只能使用虛擬機(jī)大法了,Win7/XP走起。

二、IdxSubOcr使用
????推薦使用IdxSubOcr的最新版本,目前版本2.04。
? ? 打開IdxSubOcr.exe

????點(diǎn)擊“打開字幕文件”按鈕,選擇加載.idx或.sup文件?;蛘咧苯油献募痢按蜷_字幕文件”按鈕右側(cè)的框中。
????在彈出的界面中進(jìn)行相關(guān)設(shè)置
????1.00代表軌道,識(shí)別為英語是本身軌道命名的原因,如有多條軌道請注意切換。
????????例:臺(tái)版DVD網(wǎng)球王子的字幕存在對應(yīng)國語和對應(yīng)日語兩個(gè)版本,其時(shí)間軸和翻譯內(nèi)容都有差別。如果你兩種字幕提取成一個(gè)idx/sub字幕文件了,請注意切換。
????2.是否從頭OCR,取決于你的進(jìn)度。一開始選擇從頭開始,OCR一部分后保存srt,關(guān)閉軟件后可以選擇校對字幕模式繼續(xù)校對。對于新版本中可以使用“保存工程”和“調(diào)入工程”的方式繼續(xù)你的校對。
????3.選擇你字幕的語言。請務(wù)必匹配字幕語言,否則識(shí)別準(zhǔn)確率會(huì)差很多。
????4.字幕顏色以白底黑字準(zhǔn)確率最高,如果手工選擇可以統(tǒng)一就建議手工選擇,否則則推薦自動(dòng)選擇。但對于某些字幕無法調(diào)成白底黑字的,可以嘗試Subtitle Edit。底色調(diào)成透明,字體顏色與邊框顏色對比度差越高越好。
????5.確定設(shè)置,進(jìn)入自動(dòng)OCR階段。

Tips: ? ?
????OCR完成后可能在圖形字幕預(yù)覽區(qū)的圖片不是白底黑字的,可以勾選“黑白圖形”進(jìn)行變換。
????對于一些圖片中字體線條較細(xì)的,可能OCR效果并不理想,可以勾選“OCR前先加粗圖像”,勾選后請重新加載文件OCR下。
????輔助功能中有“繁體轉(zhuǎn)簡體”功能,是否需要轉(zhuǎn)換取決于你的習(xí)慣,你也可以后續(xù)用繁化姬轉(zhuǎn)換。
????輔助功能中有“查找/替換”功能,用于替換OCR中日常OCR錯(cuò)的字,比如:“口”、“喝”、中英文標(biāo)點(diǎn)等。批量替換可以節(jié)約很多時(shí)間。
????使用多按鍵鼠標(biāo)的用戶,請善用你的鼠標(biāo)快捷鍵。對于我一個(gè)G502用戶,你可以省掉很多把右手移到鍵盤上去按鍵的時(shí)間。
已知問題:
????1.對于中英文混雜的一行字幕,英文部分通常識(shí)別的都很爛,這個(gè)無解,請善用復(fù)制粘貼及批量替換功能。
????2.對于單行中文字?jǐn)?shù)少于等于2個(gè)的,識(shí)別精度可能會(huì)比較差,盡管作者優(yōu)化過了,但大概率還是有問題。
????3.MODI對斜體字的識(shí)別真的很爛。如果一個(gè)字幕文件中大多是斜體字,那真沒辦法,這種字幕請放棄這種方法識(shí)別。
????4.新版本IdxSubOcr在識(shí)別極個(gè)別圖形字幕時(shí)會(huì)有問題。表現(xiàn)為字幕全為空白,或者識(shí)別一部分后,后面全是空白,但沒報(bào)錯(cuò)且其它字幕可以正常OCR。遇到這個(gè)問題推薦使用1.14版本的IdxSubOcr。由于舊版不支持高分屏,你可以使用舊版本OCR后保存srt,再用新版的校對模式進(jìn)行校對。舊版本也不支持SUP字幕,想轉(zhuǎn)成idx/sub的,請使用Subtitle Edit。如果你找不到舊版本,也可以先轉(zhuǎn)換成另一種格式再進(jìn)行OCR試試。
????
請務(wù)必及時(shí)保存文件,保存文件,保存文件。
? ?

相關(guān)下載:
老馬的博客:
https://www.cnblogs.com/stronghorse/
SharePointDesigner_TC:
https://hungryxhz.lanzous.com/b00t61cdc
SharePointDesigner_SC:
https://hungryxhz.lanzous.com/b00t61ced
