學術(shù)必備!PDF OCR神器Nougat整合包教程
學術(shù)必備!PDF OCR神器Nougat整合包教程
數(shù)學公式表格都能識別。Meta AI 推出了一個 OCR 神器Nougat。Nougat 基于 Transformer 模型構(gòu)建而成,可以輕松的將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown,掃描版的 PDF 也能轉(zhuǎn)換,讓人頭疼的數(shù)學公式也不在話下。
論文地址:https://arxiv.org/pdf/2308.13418v1.pdf
項目主頁:https://facebookresearch.github.io/nougat/
Nougat 不但可以識別文本中出現(xiàn)的簡單公式,還能較為準確地轉(zhuǎn)換復雜的數(shù)學公式。公式中出現(xiàn)的上標、下標等各種數(shù)學格式也分的清清楚楚,還能識別表格,不過Nougat 生成的文檔中不包含圖片。

學術(shù)Fun將上述工具制作成一鍵啟動包,點擊即可使用,避免大家配置Python環(huán)境出現(xiàn)各種問題,下載地址: https://xueshu.fun/2930/

整合包使用教程
下載壓縮包,下載地址: https://xueshu.fun/2930/,解壓后,如下圖所示,雙擊bat文件運行

打開軟件,瀏覽器訪問http://127.0.0.1:7860/,即可在瀏覽器里操作啦!

方法概述
本文架構(gòu)是一個編碼器 - 解碼器 Transformer 架構(gòu),允許端到端的訓練,并以 Donut 架構(gòu)為基礎(chǔ)。該模型不需要任何 OCR 相關(guān)輸入或模塊,文本由網(wǎng)絡隱式識別。
該研究用到了 2 個 Swin Transformer ,一個參數(shù)量為 350M,可處理的序列長度為 4096,另一參數(shù)量為 250M,序列長度為 3584。在推理過程中,使用貪婪解碼生成文本。
Meta 表示,Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面,生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優(yōu)化的情況下,基礎(chǔ)模型每批次平均生成時間為 19.5s(token 數(shù)≈1400),與經(jīng)典方法(GROBID 10.6 PDF/s )相比速度還是非常慢的,但 Nougat 可以正確解析數(shù)學表達式。