散文網(wǎng) » 科技 »學(xué)習(xí) » 不再為PDF掃描發(fā)愁：Meta AI 推出 Nougat，數(shù)學(xué)公式OCR的新革命。

不再為PDF掃描發(fā)愁：Meta AI 推出 Nougat，數(shù)學(xué)公式OCR的新革命。

2023-09-04 16:54 作者:ReadPaper論文閱讀 0人讀過 | 我要投稿

Meta AI 推出了一款名為 Nougat 的 OCR 工具，專門針對 PDF 文件，尤其是包含復(fù)雜數(shù)學(xué)公式的文件。傳統(tǒng)上，PDF 文件中的信息，特別是數(shù)學(xué)公式，很難轉(zhuǎn)換為其他格式，因為轉(zhuǎn)換過程中可能會丟失大量信息。Nougat 基于 Transformer 模型構(gòu)建，能夠輕松地將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown 格式，甚至可以處理掃描版的 PDF。除了可以識別簡單的數(shù)學(xué)公式，Nougat 還能準確地轉(zhuǎn)換復(fù)雜的數(shù)學(xué)公式，并能識別表格和處理掃描產(chǎn)生的畸變文本。但是，Nougat 生成的文檔中不包含圖片。

關(guān)于模型：

該模型的架構(gòu)是一個編碼器-解碼器 Transformer 架構(gòu)，允許端到端的訓(xùn)練過程。該模型基于 Donut 架構(gòu)。模型不需要任何與OCR相關(guān)的輸入或模塊。文本是由網(wǎng)絡(luò)隱式識別的。

- 編碼器：視覺編碼器接收一個文檔圖像 x ∈ R3×H0 ×W0，裁剪邊緣并調(diào)整圖像大小以適應(yīng)固定大小的矩形 (H, W)。如果圖像小于矩形，將添加額外的填充以確保每個圖像具有相同的維度。使用的是一個 Swin Transformer，這是一個分層的視覺 transformer。

- 解碼器：編碼后的圖像 z 被解碼為一個令牌序列，使用一個帶有交叉注意力的 transformer 解碼器架構(gòu)。令牌以自動回歸的方式生成，使用自注意力和交叉注意力分別關(guān)注輸入序列和編碼器輸出的不同部分。最后，輸出被投影到詞匯表 v 的大小，產(chǎn)生 logits \( \ell \in R^v \)。根據(jù) Kim 等人的工作，使用了 mBART 解碼器的實現(xiàn)。

在學(xué)術(shù)領(lǐng)域，研究人員經(jīng)常需要引用、整理和分析大量的文獻，其中很多都是 PDF 格式。傳統(tǒng)的 OCR 工具很難處理復(fù)雜的數(shù)學(xué)公式，這給研究帶來了很大的困擾。Nougat 的出現(xiàn)，將極大地提高研究人員的工作效率，使他們能夠更容易地引用和整理文獻。而且，PDF作為一種高質(zhì)量的多模態(tài)語料，Nougat可以快速的把很多文本信息等直接做到規(guī)則化，形成AI可以訓(xùn)練的語料庫。

在商業(yè)領(lǐng)域，很多企業(yè)的文檔也是 PDF 格式，尤其是技術(shù)文檔和合同。Nougat 可以幫助企業(yè)更容易地管理和整理這些文檔，提高工作效率。并且結(jié)合大模型，可以低成本地把原本的材料做到企業(yè)知識庫中，讓AI協(xié)助企業(yè)辦公。