散文網(wǎng) » 生活 »日常 » 學術(shù)必備！PDF OCR神器Nougat整合包教程

學術(shù)必備！PDF OCR神器Nougat整合包教程

2023-09-07 19:31 作者:IT教程精選 0人讀過 | 我要投稿

數(shù)學公式表格都能識別。Meta AI 推出了一個 OCR 神器Nougat。Nougat 基于 Transformer 模型構(gòu)建而成，可以輕松的將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown，掃描版的 PDF 也能轉(zhuǎn)換，讓人頭疼的數(shù)學公式也不在話下。

論文地址：https://arxiv.org/pdf/2308.13418v1.pdf
項目主頁：https://facebookresearch.github.io/nougat/

Nougat 不但可以識別文本中出現(xiàn)的簡單公式，還能較為準確地轉(zhuǎn)換復雜的數(shù)學公式。公式中出現(xiàn)的上標、下標等各種數(shù)學格式也分的清清楚楚，還能識別表格，不過Nougat 生成的文檔中不包含圖片。

學術(shù)Fun將上述工具制作成一鍵啟動包，點擊即可使用，避免大家配置Python環(huán)境出現(xiàn)各種問題，下載地址： https://xueshu.fun/2930/

整合包使用教程

下載壓縮包，下載地址： https://xueshu.fun/2930/，解壓后，如下圖所示，雙擊bat文件運行

打開軟件，瀏覽器訪問http://127.0.0.1:7860/，即可在瀏覽器里操作啦！

方法概述

本文架構(gòu)是一個編碼器 - 解碼器 Transformer 架構(gòu)，允許端到端的訓練，并以 Donut 架構(gòu)為基礎(chǔ)。該模型不需要任何 OCR 相關(guān)輸入或模塊，文本由網(wǎng)絡隱式識別。

該研究用到了 2 個 Swin Transformer ，一個參數(shù)量為 350M，可處理的序列長度為 4096，另一參數(shù)量為 250M，序列長度為 3584。在推理過程中，使用貪婪解碼生成文本。

Meta 表示，Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面，生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優(yōu)化的情況下，基礎(chǔ)模型每批次平均生成時間為 19.5s（token 數(shù)≈1400），與經(jīng)典方法（GROBID 10.6 PDF/s ）相比速度還是非常慢的，但 Nougat 可以正確解析數(shù)學表達式。

標簽：