不再為PDF掃描發(fā)愁:Meta AI 推出 Nougat,數(shù)學(xué)公式OCR的新革命。


Meta AI 推出了一款名為 Nougat 的 OCR 工具,專門針對 PDF 文件,尤其是包含復(fù)雜數(shù)學(xué)公式的文件。傳統(tǒng)上,PDF 文件中的信息,特別是數(shù)學(xué)公式,很難轉(zhuǎn)換為其他格式,因為轉(zhuǎn)換過程中可能會丟失大量信息。Nougat 基于 Transformer 模型構(gòu)建,能夠輕松地將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown 格式,甚至可以處理掃描版的 PDF。除了可以識別簡單的數(shù)學(xué)公式,Nougat 還能準確地轉(zhuǎn)換復(fù)雜的數(shù)學(xué)公式,并能識別表格和處理掃描產(chǎn)生的畸變文本。但是,Nougat 生成的文檔中不包含圖片。
關(guān)于模型:
該模型的架構(gòu)是一個編碼器-解碼器 Transformer 架構(gòu),允許端到端的訓(xùn)練過程。該模型基于 Donut 架構(gòu)。模型不需要任何與OCR相關(guān)的輸入或模塊。文本是由網(wǎng)絡(luò)隱式識別的。
- 編碼器:視覺編碼器接收一個文檔圖像 x ∈ R3×H0 ×W0,裁剪邊緣并調(diào)整圖像大小以適應(yīng)固定大小的矩形 (H, W)。如果圖像小于矩形,將添加額外的填充以確保每個圖像具有相同的維度。使用的是一個 Swin Transformer,這是一個分層的視覺 transformer。
- 解碼器:編碼后的圖像 z 被解碼為一個令牌序列,使用一個帶有交叉注意力的 transformer 解碼器架構(gòu)。令牌以自動回歸的方式生成,使用自注意力和交叉注意力分別關(guān)注輸入序列和編碼器輸出的不同部分。最后,輸出被投影到詞匯表 v 的大小,產(chǎn)生 logits \( \ell \in R^v \)。根據(jù) Kim 等人的工作,使用了 mBART 解碼器的實現(xiàn)。
在學(xué)術(shù)領(lǐng)域,研究人員經(jīng)常需要引用、整理和分析大量的文獻,其中很多都是 PDF 格式。傳統(tǒng)的 OCR 工具很難處理復(fù)雜的數(shù)學(xué)公式,這給研究帶來了很大的困擾。Nougat 的出現(xiàn),將極大地提高研究人員的工作效率,使他們能夠更容易地引用和整理文獻。而且,PDF作為一種高質(zhì)量的多模態(tài)語料,Nougat可以快速的把很多文本信息等直接做到規(guī)則化,形成AI可以訓(xùn)練的語料庫。
在商業(yè)領(lǐng)域,很多企業(yè)的文檔也是 PDF 格式,尤其是技術(shù)文檔和合同。Nougat 可以幫助企業(yè)更容易地管理和整理這些文檔,提高工作效率。并且結(jié)合大模型,可以低成本地把原本的材料做到企業(yè)知識庫中,讓AI協(xié)助企業(yè)辦公。


論文地址:https://readpaper.com/paper/4793741334057844737
特邀作者:早稻田大學(xué)計算機系在讀博士 王軍杰?