最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟

2023-06-25 08:52 作者:bili_2084577828  | 我要投稿


之前我們介紹了一些OCR前期圖片處理的技術(shù),其實(shí)要將圖片上的表格識別出來,前期的圖片處理和OCR技術(shù)是遠(yuǎn)遠(yuǎn)不夠的,我們還需要用到數(shù)據(jù)集構(gòu)建技術(shù),那么,它的實(shí)現(xiàn)大致步驟是怎樣的呢?

1. 收集數(shù)據(jù):收集包含表格的圖像或PDF文件(圖片型PDF)。我們會首先從公共數(shù)據(jù)集中獲取,如ICDAR產(chǎn)生的和COCO-Text等,其次也會自行收集大量的不同類型的帶表格的圖片,包括有表格線和無表格線的。

2. 標(biāo)注數(shù)據(jù):對于每個圖像或PDF文件,需要手動標(biāo)注表格的位置和單元格的邊界框,這個過程可能會比較繁瑣,但為了獲得更準(zhǔn)確的識別率和更好的表格識別效果,這一步又是必不可少的??梢允褂玫臉?biāo)注工具有LabelImg、VGG Image Annotator等。

3. 數(shù)據(jù)清洗:對標(biāo)注不準(zhǔn)確或不完整的數(shù)據(jù)進(jìn)行清洗,以確保數(shù)據(jù)集的質(zhì)量,為后面的處理提供高質(zhì)量的數(shù)據(jù)支撐。

4. 數(shù)據(jù)劃分:將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集。通常采用80/10/10的比例。

5. 數(shù)據(jù)增強(qiáng):我們對于訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),會使用旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等技術(shù),以增加數(shù)據(jù)集的多樣性和數(shù)量。

6. 數(shù)據(jù)格式轉(zhuǎn)換:將數(shù)據(jù)集轉(zhuǎn)換為模型所需的格式,如TFRecord、COCO等。

7. 數(shù)據(jù)集評估:使用評估指標(biāo),如準(zhǔn)確率、召回率、F1值等,對模型進(jìn)行評估。

以上是我們的構(gòu)建數(shù)據(jù)集的大致步驟,由于數(shù)據(jù)集的質(zhì)量對訓(xùn)練模型的性能有很大影響,因此我們每天都需要花費(fèi)了大量時間和精力去不斷地完善。

#excel技巧#

金鳴識別數(shù)據(jù)集構(gòu)建技術(shù)的大致步驟的評論 (共 條)

分享到微博請遵守國家法律
阿勒泰市| 咸宁市| 张家港市| 清水河县| 康保县| 枝江市| 满洲里市| 屏东县| 邵武市| 贡嘎县| 德江县| 大同市| 莲花县| 离岛区| 大宁县| 原阳县| 抚州市| 乐山市| 二手房| 镇平县| 鹰潭市| 聊城市| 夏津县| 扶风县| 徐水县| 兰州市| 西丰县| 张家口市| 江西省| 南溪县| 固安县| 漳平市| 仁布县| 和田县| 随州市| 江安县| 临猗县| 马尔康县| 噶尔县| 宁武县| 阿城市|