散文網(wǎng) » 科技 »數(shù)碼 » 金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

2023-06-25 08:52 作者:bili_2084577828 0人讀過 | 我要投稿

之前我們介紹了一些OCR前期圖片處理的技術(shù)，其實(shí)要將圖片上的表格識別出來，前期的圖片處理和OCR技術(shù)是遠(yuǎn)遠(yuǎn)不夠的，我們還需要用到數(shù)據(jù)集構(gòu)建技術(shù)，那么，它的實(shí)現(xiàn)大致步驟是怎樣的呢？

1. 收集數(shù)據(jù)：收集包含表格的圖像或PDF文件（圖片型PDF）。我們會首先從公共數(shù)據(jù)集中獲取，如ICDAR產(chǎn)生的和COCO-Text等，其次也會自行收集大量的不同類型的帶表格的圖片，包括有表格線和無表格線的。

2. 標(biāo)注數(shù)據(jù)：對于每個圖像或PDF文件，需要手動標(biāo)注表格的位置和單元格的邊界框，這個過程可能會比較繁瑣，但為了獲得更準(zhǔn)確的識別率和更好的表格識別效果，這一步又是必不可少的?？梢允褂玫臉?biāo)注工具有LabelImg、VGG Image Annotator等。

3. 數(shù)據(jù)清洗：對標(biāo)注不準(zhǔn)確或不完整的數(shù)據(jù)進(jìn)行清洗，以確保數(shù)據(jù)集的質(zhì)量，為后面的處理提供高質(zhì)量的數(shù)據(jù)支撐。

4. 數(shù)據(jù)劃分：將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集。通常采用80/10/10的比例。

5. 數(shù)據(jù)增強(qiáng)：我們對于訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)，會使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等技術(shù)，以增加數(shù)據(jù)集的多樣性和數(shù)量。

6. 數(shù)據(jù)格式轉(zhuǎn)換：將數(shù)據(jù)集轉(zhuǎn)換為模型所需的格式，如TFRecord、COCO等。

7. 數(shù)據(jù)集評估：使用評估指標(biāo)，如準(zhǔn)確率、召回率、F1值等，對模型進(jìn)行評估。

以上是我們的構(gòu)建數(shù)據(jù)集的大致步驟，由于數(shù)據(jù)集的質(zhì)量對訓(xùn)練模型的性能有很大影響，因此我們每天都需要花費(fèi)了大量時間和精力去不斷地完善。

#excel技巧#

標(biāo)簽：文字識別表格識別圖片轉(zhuǎn)excel 圖片轉(zhuǎn)表格圖片轉(zhuǎn)excel表格

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

本文作者的其他文章

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共條)