表單識別預(yù)覽文檔分類與Azure OpenAI集成
表單識別器是一個應(yīng)用的人工智能服務(wù),可以滿足您所有的文檔理解需求。在最新的更新中,表單識別器現(xiàn)在添加了新的功能,如文檔分類,新的預(yù)構(gòu)建模型,如1098表單(有一些變體),并使用Azure OpenAI模型來擴(kuò)展查詢的字段提取。
?
?
?
該服務(wù)的當(dāng)前通用版本通過一組新的預(yù)覽功能得到了增強(qiáng)。
?
最新預(yù)告有什么新內(nèi)容?
文件分類
隨著文檔分類器模型的加入,現(xiàn)在這是一個具有一些優(yōu)點(diǎn)的顯式功能。
增加了基于文檔類忽略文檔的能力。
將一個文件拆分成多個文檔
分析包含在文件中的單一類型的所有文檔。
Form Recognizer Studio可以在幾分鐘內(nèi)輕松訓(xùn)練自定義分類器模型,以消除應(yīng)用程序需要處理的不同文檔之間的歧義?,F(xiàn)在就試著在表單識別器工作室提高您的文檔處理能力。
?
查詢字段
?
?
普通名詞
?
?
讀取和布局中條形碼識別
二維碼
代碼39
代碼128
通用產(chǎn)品代碼(通用產(chǎn)品代碼-A和通用產(chǎn)品代碼-E)
PDF417
在中嘗試新的條形碼提取表單識別器工作室.
?
附加功能
查詢字段是表單識別器API現(xiàn)在支持的一組新功能的一個示例。其他功能包括:
高分辨率圖像
一些文檔(如工程圖紙)需要更高分辨率的輸入,以準(zhǔn)確提取文本和識別特征。由于增加了對高分辨率圖像的支持,這些文檔現(xiàn)在在原生高分辨率中受到支持。
字體
通過檢測和識別字體,可以根據(jù)表單識別器的響應(yīng)以更高的保真度重新創(chuàng)建文檔,這還可以擴(kuò)展文檔的語義分段,這些分段以先前版本中引入的段落和段落角色開始。閱讀和布局API提供了字體。
公式
LaTeX是表示數(shù)學(xué)公式的通用標(biāo)準(zhǔn),Read和Layout APIs現(xiàn)在生成從文檔中提取的公式的LaTeX表示。嘗試用Studio中的Read或Layout提取公式。
?
新的1098預(yù)建模型
?
定制模型
自定義神經(jīng)模型語言擴(kuò)展
在大多數(shù)情況下,特別是對于非結(jié)構(gòu)化文檔,神經(jīng)模型比模板模型表現(xiàn)得更好。神經(jīng)模型現(xiàn)在支持其他語言。
西班牙語
德國人
法語
意大利的
荷蘭人
自定義神經(jīng)模型為具有幾個不同模板的文檔類型提供了單一模型的靈活性,請?jiān)诒韱巫R別器工作室.
自定義模板模型中的簽名檢測改進(jìn)
自定義模板模型能夠檢測簽名的存在,簽名檢測功能得到了顯著改進(jìn),可以應(yīng)對簽名格式變化帶來的挑戰(zhàn)。
?
人工智能質(zhì)量和語言覆蓋范圍的改進(jìn)
除了所有這些更新之外,所有型號的AI質(zhì)量都有改進(jìn)。一些重要的更新包括:
收據(jù)模型擴(kuò)展到熱收據(jù)。
接收模式擴(kuò)展到另外10種語言。
IDs模型現(xiàn)在支持澳大利亞鑰匙通行證ID。
布局模型中的表格檢測和提取改進(jìn)。
針對單個數(shù)字或字符以及日期等常見實(shí)體的OCR改進(jìn)。
以上內(nèi)容源自Azure 博客-翻譯