最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

學術(shù)必備!PDF OCR神器Nougat整合包教程

2023-09-07 19:31 作者:IT教程精選  | 我要投稿

學術(shù)必備!PDF OCR神器Nougat整合包教程

數(shù)學公式表格都能識別。Meta AI 推出了一個 OCR 神器Nougat。Nougat 基于 Transformer 模型構(gòu)建而成,可以輕松的將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown,掃描版的 PDF 也能轉(zhuǎn)換,讓人頭疼的數(shù)學公式也不在話下。

  • 論文地址:https://arxiv.org/pdf/2308.13418v1.pdf

  • 項目主頁:https://facebookresearch.github.io/nougat/

Nougat 不但可以識別文本中出現(xiàn)的簡單公式,還能較為準確地轉(zhuǎn)換復雜的數(shù)學公式。公式中出現(xiàn)的上標、下標等各種數(shù)學格式也分的清清楚楚,還能識別表格,不過Nougat 生成的文檔中不包含圖片。

學術(shù)Fun將上述工具制作成一鍵啟動包,點擊即可使用,避免大家配置Python環(huán)境出現(xiàn)各種問題,下載地址: https://xueshu.fun/2930/

整合包使用教程

  • 下載壓縮包,下載地址: https://xueshu.fun/2930/,解壓后,如下圖所示,雙擊bat文件運行

  • 打開軟件,瀏覽器訪問http://127.0.0.1:7860/,即可在瀏覽器里操作啦!

方法概述

本文架構(gòu)是一個編碼器 - 解碼器 Transformer 架構(gòu),允許端到端的訓練,并以 Donut 架構(gòu)為基礎(chǔ)。該模型不需要任何 OCR 相關(guān)輸入或模塊,文本由網(wǎng)絡隱式識別。

該研究用到了 2 個 Swin Transformer ,一個參數(shù)量為 350M,可處理的序列長度為 4096,另一參數(shù)量為 250M,序列長度為 3584。在推理過程中,使用貪婪解碼生成文本。

Meta 表示,Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面,生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優(yōu)化的情況下,基礎(chǔ)模型每批次平均生成時間為 19.5s(token 數(shù)≈1400),與經(jīng)典方法(GROBID 10.6 PDF/s )相比速度還是非常慢的,但 Nougat 可以正確解析數(shù)學表達式。


學術(shù)必備!PDF OCR神器Nougat整合包教程的評論 (共 條)

分享到微博請遵守國家法律
广丰县| 通山县| 五莲县| 大理市| 普格县| 六安市| 高安市| 平陆县| 洪雅县| 辽宁省| 江城| 南部县| 长寿区| 巴林右旗| 垣曲县| 临夏县| 新乡县| 阿尔山市| 沙雅县| 长乐市| 泽普县| 繁昌县| 增城市| 班玛县| 栾城县| 锦屏县| 梨树县| 双桥区| 宁乡县| 潍坊市| 齐河县| 海门市| 芷江| 夹江县| 九江市| 元氏县| 绥阳县| 南平市| 巴楚县| 灵山县| 陈巴尔虎旗|