基于深度學(xué)習(xí)的表格檢測與識別技術(shù)的優(yōu)勢
引言:
信息時代的高速發(fā)展導(dǎo)致數(shù)據(jù)的大量產(chǎn)生與頻繁傳輸,單單依靠人力很難處理這些數(shù)據(jù)。依托于人工智能的興起與發(fā)展,數(shù)據(jù)的利用變得更加高效。表格作為數(shù)據(jù)的一種重要載體,是人們?yōu)榱俗寯?shù)據(jù)的組織形式更加標(biāo)準(zhǔn)和結(jié)構(gòu)化而使用的一種數(shù)據(jù)類型。
?
表格的特點:
信息高度精煉集中,方便信息的檢索和比較。表格被廣泛用于表示結(jié)構(gòu)和功能信息,它們出現(xiàn)在不同種類的文獻中,包括報紙、研究論文和科學(xué)文件等。表格使讀者能夠快速地比較、分析和理解文件中出現(xiàn)的事實。表格識別的目的是獲取圖像中的表格并訪問其數(shù)據(jù),是文檔分析與識別領(lǐng)域的一個重要分支。
?
表格在生成或存儲過程中往往以圖片或 PDF(Portable Document Format)文件的形式存在,會丟失易于計算機理解的原有結(jié)構(gòu)信息。若是采用人工手段對表格進行重新處理錄入,會面臨效率低下、數(shù)據(jù)量大導(dǎo)致出錯等問題。因此,如何高效地從文檔或圖像中找到表格區(qū)域,同時有效地提取表格中的結(jié)構(gòu)信息和數(shù)據(jù)內(nèi)容,成為了一個亟待解決的問題。
?
表格識別的發(fā)展歷程:
早期對于表格的識別大多是針對比較簡單或者模板化的表格。從表格的布局結(jié)構(gòu)出發(fā),抽取表格線條或抽取文本塊,然后使用規(guī)則方法進行分析,但這些方法往往泛化能力較差,且難以處理復(fù)雜表格。后來隨著深度學(xué)習(xí)的發(fā)展,無論是機器視覺方向還是自然語言處理方面都獲得了巨大的進展,各種表格識別的方案被提出,并有研究者開始嘗試對自然場景下的表格進行處理。
?
傳統(tǒng)的機器學(xué)習(xí)方法可以實現(xiàn)表格識別和檢測,但是它有一定的性能局限,特別是在解決復(fù)雜的表格識別和檢測的技術(shù)要求上有一定的局限性。深度學(xué)習(xí)技術(shù)已經(jīng)成為計算機視覺、自然語言處理等領(lǐng)域具有極高表現(xiàn)能力的新型機器學(xué)習(xí)方法,近年來,基于深度學(xué)習(xí)的表格識別與檢測技術(shù)也受到了廣泛關(guān)注,它可以提供較高的準(zhǔn)確率和完整性,起到較好的優(yōu)化解決方案。
?
表格識別與檢測通常分為三個基本步驟:表格位置定位、單元格分割和內(nèi)容提取。
基于深度學(xué)習(xí)的表格檢測與識別,將多層神經(jīng)網(wǎng)絡(luò)應(yīng)用到解決表格問題上,概括地說,
其特征在于幾個方面:
(1)深度學(xué)習(xí)具有高精度和強大的表示能力,能夠有效處理復(fù)雜的數(shù)據(jù),如圖像和自然語言。
(2)深度學(xué)習(xí)的特征通常是自動學(xué)習(xí)的,不需要人工標(biāo)注信息,同時它能夠準(zhǔn)確地從不同的數(shù)據(jù)中學(xué)習(xí)新特征,能夠更好地處理一些模糊,復(fù)雜和非線性的數(shù)據(jù)
(3)深度學(xué)習(xí)能夠捕獲表格的復(fù)雜結(jié)構(gòu)信息,并能夠從圖像獲得更多更有用的技術(shù)特征。
?
與傳統(tǒng)的機器學(xué)習(xí)方法相比基于深度學(xué)習(xí)的表格檢測識別有以下幾點優(yōu)勢:
(1)數(shù)據(jù)集種類
基于機器學(xué)習(xí)的檢測識別方法主要面向標(biāo)注了表格位置的數(shù)據(jù)集,使用這類數(shù)據(jù)來訓(xùn)練模型,從而可以獲得較高的檢測識別精度;而基于深度學(xué)習(xí)的檢測識別方法則面向標(biāo)注了表格元素位置的數(shù)據(jù)集,這類數(shù)據(jù)可以更詳細地描述文檔中的表格,可以有效抵擋干擾。
(2)模型準(zhǔn)確度
從模型準(zhǔn)確度上來看,基于機器學(xué)習(xí)的表格檢測識別方法主要依賴于模型的改進,因而能夠在模型準(zhǔn)確度上把控較高的水準(zhǔn),即使對于較小的數(shù)據(jù)集來說;而基于深度學(xué)習(xí)的表格檢測識別方法則更加取決于數(shù)據(jù)的種類基于更加詳細的數(shù)據(jù)描述,可以使模型的精度提升到更高的水準(zhǔn)。
(3)數(shù)據(jù)探索
從數(shù)據(jù)探索的角度來看,基于機器學(xué)習(xí)的表格檢測識別方法主要針對已有數(shù)據(jù)對模型進行訓(xùn)練,以提高檢測識別的效率;而基于深度學(xué)習(xí)的檢測識別方法則能夠在完整的文本中探索出詳細的表格信息,從而獲取更多的有用技術(shù)特征。
(4)時間開銷
從時間開銷上來看,基于機器學(xué)習(xí)的表格檢測識別方法常常比較容易受到訓(xùn)練數(shù)據(jù)和模型規(guī)模等因素的影響,而基于深度學(xué)習(xí)的表格檢測識別方法則更加容易進行識別和檢測,所需時間大大縮短。
對比結(jié)論:?
1 因其可以解決數(shù)據(jù)量小、模型效果不理想等問題,基于機器學(xué)習(xí)的方法依賴于模型的提高.
2 而基于深度學(xué)習(xí)的方法可以提供完整的特征描述以及更強大的抗干擾能力,從而使檢測識別的效果大大提升。
?
目前,基于深度學(xué)習(xí)的表格識別與檢測技術(shù)已經(jīng)在科研和實際應(yīng)用方面取得了一定的成就,常見的表格檢測和識別技術(shù)常常與基于深度學(xué)習(xí)的其他技術(shù)結(jié)合起來,進行系統(tǒng)設(shè)計。根據(jù)瞭望智庫的數(shù)據(jù),基于深度學(xué)習(xí)的表格檢測與識別技術(shù)的市場規(guī)模目前已經(jīng)從 2016 年的 46600 萬美元增長到了 2018 年的 9800 萬美元,其中,自然語言處理(NLP)、計算機視覺(CV)和圖像處理等技術(shù)將有望引領(lǐng)下一步的增長動力。
?
合合信息認(rèn)為,現(xiàn)今基于深度學(xué)習(xí)的表格檢測與識別技術(shù)仍然處于有限,大齡化和繁雜之中。從技術(shù)質(zhì)量角度講,早期研究大多數(shù)臨時性,難以涉及客觀分析。然而,在過去幾年中,隨著技術(shù)的不斷成熟,許多研究開發(fā)了和實現(xiàn)了各種深度學(xué)習(xí)模型,提高了表格檢測與識別技術(shù)的準(zhǔn)確性和有效性。在普適表格識別和檢測中,深度學(xué)習(xí)算法是有利的,但它仍有挑戰(zhàn)需要解決。未來研究可能集中在強化表格檢測和深度學(xué)習(xí)的運行速度,應(yīng)用表格檢測到現(xiàn)實世界的任務(wù),靈活的處理新表格,更多地考慮端到端方法以及學(xué)習(xí)式表格識別。
?
?
參考文獻:
Kong L J, Bao Y C, Wang Q W and Li H K. 2021. Summary of table detection and recognition algorithms based on deep learning. Computer & Network,47(02):65-73
Gao L C, Li Y B, Du L, Zhang X P, Zhu Z Y, Lu N, Jin L W, Huang Y S, Tang Z . 2022. A?survey on table recognition technology. Journal of Image and Graphics, 27(6): 1898-1917.
?