搭建日語書籍OCR工作流：briss+Acrobat

2020-10-17 14:18 作者:今天修bug了嗎 0人讀過 | 我要投稿

這篇稍稍有點硬核，需要各位掌握基礎(chǔ)的命令行操作（或者至少知道終端/命令提示符怎么打開）。

畢竟……

1. ABBYY/Acrobat單軟件OCR工作流的問題

起因是這樣的，我們教授要搞讀書會，書籍通過掃描件的方式分享給參加的人。

又因為我在所有文檔導(dǎo)入之前會喜歡先過一遍OCR，所以之前一般我會使用Acrobat先處理一遍。

但是Acrobat對于日語的識別經(jīng)常不是很精確，所以我轉(zhuǎn)向了被許多人吹爆（MarginNote本身也集成了）的ABBYY。

只是ABBYY Findreader Pro的效果讓我感覺這是個假軟件……

ABBYY Finereader Pro for Mac 與Acrobat DC Pro OCR效果橫向?qū)Ρ?/figcaption>

但是我很喜歡ABBYY的“在OCR的過程中自動把整張頁面分成兩個部分”的功能。我記得Adobe是沒有的。（事實上它確實沒有）

然后我搜索了一下有沒有什么奇怪腳本可以實現(xiàn)這個功能——在Adobe社區(qū)里面找到了一個第三方寫的腳本，$40.

在？搶個銀行？

那么，有沒有一個工作流既能夠享受到分割單頁帶來的閱讀上的方便，又能夠利用Acrobat更加準確的OCR結(jié)果？

2. briss的引入

briss是一個Java應(yīng)用，需要Java環(huán)境才能運行。

briss唯一的功能就是分割頁面。載入文件之后，briss會分析頁面排版，然后提取出重疊最多的部分形成切割矩形?？梢酝ㄟ^左上角和右下角的手柄調(diào)節(jié)矩形大小和位置，也可以直接在頁面上拖動新建范圍。（briss不會修正傾斜頁面）

在macOS上使用briss有兩種方式：第一種是從網(wǎng)站上(https://sourceforge.net/projects/briss/)下載jar，然后通過終端的java -jar [briss.jar路徑] [pdf文件路徑]運行；另一種方式是通過homebrew安裝briss（brew install briss），然后直接使用briss [pdf文件路徑]運行。

在Windows上只能先安裝Java SRE/JDK，下載briss，然后運行jar文件。

雖然briss有啟動后再選擇文件的功能，但是那個界面實在是太低效了，我個人更推薦命令行方式。