搭建日語書籍OCR工作流:briss+Acrobat

這篇稍稍有點硬核,需要各位掌握基礎(chǔ)的命令行操作(或者至少知道終端/命令提示符怎么打開)。
畢竟……

1. ABBYY/Acrobat單軟件OCR工作流的問題
起因是這樣的,我們教授要搞讀書會,書籍通過掃描件的方式分享給參加的人。

又因為我在所有文檔導(dǎo)入之前會喜歡先過一遍OCR,所以之前一般我會使用Acrobat先處理一遍。
但是Acrobat對于日語的識別經(jīng)常不是很精確,所以我轉(zhuǎn)向了被許多人吹爆(MarginNote本身也集成了)的ABBYY。
只是ABBYY Findreader Pro的效果讓我感覺這是個假軟件……

但是我很喜歡ABBYY的“在OCR的過程中自動把整張頁面分成兩個部分”的功能。我記得Adobe是沒有的。(事實上它確實沒有)

然后我搜索了一下有沒有什么奇怪腳本可以實現(xiàn)這個功能——在Adobe社區(qū)里面找到了一個第三方寫的腳本,$40.

在?搶個銀行?

那么,有沒有一個工作流既能夠享受到分割單頁帶來的閱讀上的方便,又能夠利用Acrobat更加準確的OCR結(jié)果?
2. briss的引入
briss是一個Java應(yīng)用,需要Java環(huán)境才能運行。
briss唯一的功能就是分割頁面。載入文件之后,briss會分析頁面排版,然后提取出重疊最多的部分形成切割矩形??梢酝ㄟ^左上角和右下角的手柄調(diào)節(jié)矩形大小和位置,也可以直接在頁面上拖動新建范圍。(briss不會修正傾斜頁面)
在macOS上使用briss有兩種方式:第一種是從網(wǎng)站上(https://sourceforge.net/projects/briss/)下載jar,然后通過終端的java -jar [briss.jar路徑] [pdf文件路徑]運行;另一種方式是通過homebrew安裝briss(brew install briss),然后直接使用briss [pdf文件路徑]運行。
在Windows上只能先安裝Java SRE/JDK,下載briss,然后運行jar文件。
雖然briss有啟動后再選擇文件的功能,但是那個界面實在是太低效了,我個人更推薦命令行方式。


完成調(diào)整之后,選擇Action>Crop PDF就可以導(dǎo)出。

導(dǎo)出之后,得到了單頁的PDF文件,接著可以再使用Acrobat打開進行正常OCR操作。
總結(jié)
Adobe躺著賺錢,惹得百姓怨聲載道
