最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

不再為PDF掃描發(fā)愁:Meta AI 推出 Nougat,數(shù)學(xué)公式OCR的新革命。

2023-09-04 16:54 作者:ReadPaper論文閱讀  | 我要投稿


Meta AI 推出了一款名為 Nougat 的 OCR 工具,專門針對 PDF 文件,尤其是包含復(fù)雜數(shù)學(xué)公式的文件。傳統(tǒng)上,PDF 文件中的信息,特別是數(shù)學(xué)公式,很難轉(zhuǎn)換為其他格式,因為轉(zhuǎn)換過程中可能會丟失大量信息。Nougat 基于 Transformer 模型構(gòu)建,能夠輕松地將 PDF 文檔轉(zhuǎn)換為 MultiMarkdown 格式,甚至可以處理掃描版的 PDF。除了可以識別簡單的數(shù)學(xué)公式,Nougat 還能準確地轉(zhuǎn)換復(fù)雜的數(shù)學(xué)公式,并能識別表格和處理掃描產(chǎn)生的畸變文本。但是,Nougat 生成的文檔中不包含圖片。

關(guān)于模型:

該模型的架構(gòu)是一個編碼器-解碼器 Transformer 架構(gòu),允許端到端的訓(xùn)練過程。該模型基于 Donut 架構(gòu)。模型不需要任何與OCR相關(guān)的輸入或模塊。文本是由網(wǎng)絡(luò)隱式識別的。

- 編碼器:視覺編碼器接收一個文檔圖像 x ∈ R3×H0 ×W0,裁剪邊緣并調(diào)整圖像大小以適應(yīng)固定大小的矩形 (H, W)。如果圖像小于矩形,將添加額外的填充以確保每個圖像具有相同的維度。使用的是一個 Swin Transformer,這是一個分層的視覺 transformer。

- 解碼器:編碼后的圖像 z 被解碼為一個令牌序列,使用一個帶有交叉注意力的 transformer 解碼器架構(gòu)。令牌以自動回歸的方式生成,使用自注意力和交叉注意力分別關(guān)注輸入序列和編碼器輸出的不同部分。最后,輸出被投影到詞匯表 v 的大小,產(chǎn)生 logits \( \ell \in R^v \)。根據(jù) Kim 等人的工作,使用了 mBART 解碼器的實現(xiàn)。

在學(xué)術(shù)領(lǐng)域,研究人員經(jīng)常需要引用、整理和分析大量的文獻,其中很多都是 PDF 格式。傳統(tǒng)的 OCR 工具很難處理復(fù)雜的數(shù)學(xué)公式,這給研究帶來了很大的困擾。Nougat 的出現(xiàn),將極大地提高研究人員的工作效率,使他們能夠更容易地引用和整理文獻。而且,PDF作為一種高質(zhì)量的多模態(tài)語料,Nougat可以快速的把很多文本信息等直接做到規(guī)則化,形成AI可以訓(xùn)練的語料庫。

在商業(yè)領(lǐng)域,很多企業(yè)的文檔也是 PDF 格式,尤其是技術(shù)文檔和合同。Nougat 可以幫助企業(yè)更容易地管理和整理這些文檔,提高工作效率。并且結(jié)合大模型,可以低成本地把原本的材料做到企業(yè)知識庫中,讓AI協(xié)助企業(yè)辦公。

論文地址:https://readpaper.com/paper/4793741334057844737

特邀作者:早稻田大學(xué)計算機系在讀博士 王軍杰?

不再為PDF掃描發(fā)愁:Meta AI 推出 Nougat,數(shù)學(xué)公式OCR的新革命。的評論 (共 條)

分享到微博請遵守國家法律
浪卡子县| 盘锦市| 兰州市| 霍州市| 临汾市| 石家庄市| 青阳县| 石嘴山市| 漳平市| 页游| 越西县| 大丰市| 衡阳市| 晋江市| 全南县| 东乌珠穆沁旗| 丁青县| 明星| 榕江县| 黄龙县| 长岭县| 云林县| 南充市| 延吉市| 五莲县| 永泰县| 白银市| 卢氏县| 尼玛县| 台北县| 黄平县| 金湖县| 上蔡县| 祥云县| 彰武县| 腾冲县| 永寿县| 蓬溪县| 泾川县| 越西县| 张家口市|