散文網(wǎng) » 科技 »學(xué)習(xí) » 表單識別預(yù)覽文檔分類與Azure OpenAI集成

表單識別預(yù)覽文檔分類與Azure OpenAI集成

2023-03-28 21:35 作者:你的快樂我都知道 0人讀過 | 我要投稿

表單識別器是一個應(yīng)用的人工智能服務(wù)，可以滿足您所有的文檔理解需求。在最新的更新中，表單識別器現(xiàn)在添加了新的功能，如文檔分類，新的預(yù)構(gòu)建模型，如1098表單(有一些變體)，并使用Azure OpenAI模型來擴(kuò)展查詢的字段提取。

?

表單識別器有三類模型:通用提取模型，包括讀取、布局和通用文檔模型，用于從表單或文檔中提取內(nèi)容結(jié)構(gòu)和字段。預(yù)建模型用于提取特定文檔類型的已定義模式，預(yù)建模型的示例包括發(fā)票、W-2、ID文檔等等。最后，用于從特定于您的場景或用例的文檔類型中分類和提取字段的定制模型。

?

該服務(wù)的當(dāng)前通用版本通過一組新的預(yù)覽功能得到了增強(qiáng)。

?

最新預(yù)告有什么新內(nèi)容？

文件分類

文檔處理工作流中的常見挑戰(zhàn)是識別文檔類型以支持條件傳送，以及將一個大文件拆分成多個文檔。到目前為止，對文檔進(jìn)行分類和路由的最有效的方法是將多個模型組合成單個模型進(jìn)行分析，并使用隱式分類功能將文檔路由到適當(dāng)?shù)慕M件模型。

隨著文檔分類器模型的加入，現(xiàn)在這是一個具有一些優(yōu)點(diǎn)的顯式功能。

增加了基于文檔類忽略文檔的能力。
將一個文件拆分成多個文檔
分析包含在文件中的單一類型的所有文檔。

Form Recognizer Studio可以在幾分鐘內(nèi)輕松訓(xùn)練自定義分類器模型，以消除應(yīng)用程序需要處理的不同文檔之間的歧義?，F(xiàn)在就試著在表單識別器工作室提高您的文檔處理能力。

?

查詢字段

有時，通用文檔模型不會將有效處理文檔所需的字段識別為鍵值對。通過新的高級查詢字段功能，表單識別器現(xiàn)在利用Azure OpenAI模型的功能來識別和提取處理文檔所需的特定字段。請嘗試中新增的查詢字段功能表單識別器工作室。查詢字段是一項(xiàng)門控功能，僅在EastUS地區(qū)可用，請?zhí)顚懺L問請求表開始吧。

?

普通名詞

文檔中的鍵名變化是另一個挑戰(zhàn)，它需要不斷更新代碼或者對文檔處理工作流進(jìn)行人工干預(yù)。在處理鍵名稱因文檔而異的表單時，通用文檔模型現(xiàn)在提供了一個“公共名稱”來映射該鍵的各種變體。現(xiàn)在，您的應(yīng)用程序只需要映射到可用的通用名稱。中嘗試新的通用名稱功能表單識別器工作室.

?

讀取和布局中條形碼識別

現(xiàn)在可以更有效地處理包含條形碼的文檔，醫(yī)療保健和零售業(yè)中的常見情況都需要條形碼處理。條形碼在讀取和布局中受支持。識別的不同類型的條形碼有:

二維碼
代碼39
代碼128
通用產(chǎn)品代碼(通用產(chǎn)品代碼-A和通用產(chǎn)品代碼-E)
PDF417

在中嘗試新的條形碼提取表單識別器工作室.

?

附加功能

查詢字段是表單識別器API現(xiàn)在支持的一組新功能的一個示例。其他功能包括:

高分辨率圖像

一些文檔(如工程圖紙)需要更高分辨率的輸入，以準(zhǔn)確提取文本和識別特征。由于增加了對高分辨率圖像的支持，這些文檔現(xiàn)在在原生高分辨率中受到支持。

字體

通過檢測和識別字體，可以根據(jù)表單識別器的響應(yīng)以更高的保真度重新創(chuàng)建文檔，這還可以擴(kuò)展文檔的語義分段，這些分段以先前版本中引入的段落和段落角色開始。閱讀和布局API提供了字體。

公式

LaTeX是表示數(shù)學(xué)公式的通用標(biāo)準(zhǔn)，Read和Layout APIs現(xiàn)在生成從文檔中提取的公式的LaTeX表示。嘗試用Studio中的Read或Layout提取公式。

?

新的1098預(yù)建模型

隨著1098預(yù)建模型的加入，稅務(wù)處理場景變得更加簡單。新的1098預(yù)構(gòu)建支持一些不同的變體，包括1098抵押聲明、學(xué)費(fèi)1098-T和學(xué)生貸款1098-E。請求訪問在中試用新的1098型號表單識別器工作室.

?

定制模型

自定義神經(jīng)模型語言擴(kuò)展

在大多數(shù)情況下，特別是對于非結(jié)構(gòu)化文檔，神經(jīng)模型比模板模型表現(xiàn)得更好。神經(jīng)模型現(xiàn)在支持其他語言。

西班牙語
德國人
法語
意大利的
荷蘭人

自定義神經(jīng)模型為具有幾個不同模板的文檔類型提供了單一模型的靈活性，請?jiān)诒韱巫R別器工作室.

自定義模板模型中的簽名檢測改進(jìn)

自定義模板模型能夠檢測簽名的存在，簽名檢測功能得到了顯著改進(jìn)，可以應(yīng)對簽名格式變化帶來的挑戰(zhàn)。

?

人工智能質(zhì)量和語言覆蓋范圍的改進(jìn)

除了所有這些更新之外，所有型號的AI質(zhì)量都有改進(jìn)。一些重要的更新包括:

收據(jù)模型擴(kuò)展到熱收據(jù)。
接收模式擴(kuò)展到另外10種語言。
IDs模型現(xiàn)在支持澳大利亞鑰匙通行證ID。
布局模型中的表格檢測和提取改進(jìn)。
針對單個數(shù)字或字符以及日期等常見實(shí)體的OCR改進(jìn)。

以上內(nèi)容源自Azure 博客-翻譯

標(biāo)簽：

表單識別預(yù)覽文檔分類與Azure OpenAI集成的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

表單識別預(yù)覽文檔分類與Azure OpenAI集成

表單識別預(yù)覽文檔分類與Azure OpenAI集成的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

表單識別預(yù)覽文檔分類與Azure OpenAI集成

本文作者的其他文章

表單識別預(yù)覽文檔分類與Azure OpenAI集成的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

表單識別預(yù)覽文檔分類與Azure OpenAI集成的評論 (共條)