最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

分享5種收集數(shù)據(jù)集以訓(xùn)練自定義模型的方法

2023-05-23 11:46 作者:深度之眼官方賬號  | 我要投稿

來源:投稿 作者:王同學(xué)
編輯:學(xué)姐

在過去的十年中,深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域中的應(yīng)用逐年增加。其中當(dāng)屬「行人檢測」「車輛檢測」最為火爆,其原因之一就是「預(yù)訓(xùn)練模型」「可復(fù)用性」。

由于深度學(xué)習(xí)技術(shù)在這些應(yīng)用場景上取得的卓越效果,企業(yè)現(xiàn)在已經(jīng)開始使用深度學(xué)習(xí)來解決自己的問題。

但是,如果可用的預(yù)訓(xùn)練模型不適合你的應(yīng)用場景,這時你們會怎么解決呢?

一個預(yù)先訓(xùn)練的模型能夠檢測到蘋果,但它肯定不能區(qū)分“好蘋果”和“爛蘋果”,因為它從未“被教過”這樣做。

那么如果遇到了這種情況「你會怎么做呢?」

“獲得大量的好蘋果和爛蘋果的圖像,并訓(xùn)練一個自定義檢測模型!”

在創(chuàng)建一個好的自定義檢測模型時,一個常見的挑戰(zhàn)就是「數(shù)據(jù)問題」。深度學(xué)習(xí)模型需要大量的數(shù)據(jù)來訓(xùn)練它們的算法——正如我們在MaskRCNN、YOLOUNet等模型中看到的那樣,這些模型都是在現(xiàn)有的大型數(shù)據(jù)集COCOImageNet上訓(xùn)練得到的。

如何獲取用于訓(xùn)練自定義檢測模型的數(shù)據(jù)?

在這篇文章中,我們將探討收集數(shù)據(jù)集來訓(xùn)練自定義檢測模型的5種方法。

1. 公開可用的開放標(biāo)記數(shù)據(jù)集

如果你比較幸運,你可能會在互聯(lián)網(wǎng)上獲得你想要的已標(biāo)記數(shù)據(jù)集。以下是幾個可供你選擇的計算機視覺領(lǐng)域圖像數(shù)據(jù)集。

  • 「ImageNet」

ImageNet是一個計算機視覺系統(tǒng)識別項目, 是目前世界上圖像識別最大的數(shù)據(jù)庫。ImageNet是美國斯坦福的計算機科學(xué)家模擬人類的識別系統(tǒng)建立的。能夠從圖片識別物體。ImageNet數(shù)據(jù)集文檔詳細(xì),有專門的團隊維護(hù),使用非常方便,在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣,幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。ImageNet中目前共有 14,197,122幅圖像,總共分為21,841個類別,通常我們所說的 ImageNet 數(shù)據(jù)集其實是指 ISLVRC2012 比賽用的子數(shù)據(jù)集,其中 train1,281,167 張照片和標(biāo)簽,共1000類,大概每類1300張圖片,val50,000副圖像,每類50 個數(shù)據(jù),test100,000副圖片,每類100個數(shù)據(jù)。

  • 「MS COCO」

COCO數(shù)據(jù)集是微軟團隊發(fā)布的一個可以用來圖像recognition+segmentation+captioning 數(shù)據(jù)集,該數(shù)據(jù)集收集了大量包含常見物體的日常場景圖片,并提供像素級的實例標(biāo)注以更精確地評估檢測和分割算法的效果,致力于推動場景理解的研究進(jìn)展。依托這一數(shù)據(jù)集,每年舉辦一次比賽,現(xiàn)已涵蓋檢測、分割、關(guān)鍵點識別、注釋等機器視覺的中心任務(wù),是繼ImageNet Chanllenge以來最有影響力的學(xué)術(shù)競賽之一。

COCO的檢測任務(wù)共含有80個類,在2014年發(fā)布的數(shù)據(jù)規(guī)模分train/val/test分別為80k/40k/40k,學(xué)術(shù)界較為通用的劃分是使用train35kval子集作為訓(xùn)練集(trainval35k),使用剩余的val作為測試集(minival),同時向官方的evaluation server提交結(jié)果(test-dev)。除此之外,COCO官方也保留一部分test數(shù)據(jù)作為比賽的評測集。

  • 「Google Open Image」

Open Image是谷歌團隊發(fā)布的數(shù)據(jù)集。 它包含了190萬張圖片上600個物體類別的16M個邊界框,使其成為現(xiàn)有的最大的帶有物體位置注釋的數(shù)據(jù)集。這些方框主要是由專業(yè)注釋者手工繪制的,以確保準(zhǔn)確性和一致性。這些圖像非常多樣化,通常包含有多個物體的復(fù)雜場景(平均每張圖像8.3個)。

  • 「MNIST 手寫數(shù)據(jù)集」

「MNIST 手寫數(shù)據(jù)集:」該數(shù)據(jù)集總共有 70,000 張手寫數(shù)字圖像,是 NIST 提供的更大數(shù)據(jù)集的子集。數(shù)字已進(jìn)行大小規(guī)范化,并在固定大小的圖像中居中。

  • 「DOTA」

DOTA是遙感航空圖像檢測的常用數(shù)據(jù)集,包含2806張航空圖像,尺寸大約為4k×4k,包含15個類別共計188282個實例,其中14個主類,small vehiclelarge vehicle都是vehicle的子類。其標(biāo)注方式為四點確定的任意形狀和方向的四邊形。航空圖像區(qū)別于傳統(tǒng)數(shù)據(jù)集,有其自己的特點,如:尺度變化性更大;密集的小物體檢測;檢測目標(biāo)的不確定性。數(shù)據(jù)劃分為1/6驗證集,1/3測試集,1/2訓(xùn)練集。目前發(fā)布了訓(xùn)練集和驗證集,圖像尺寸從800×8004000×4000不等。

2. 爬取網(wǎng)絡(luò)圖像

另一種選擇是在網(wǎng)絡(luò)上進(jìn)行圖像搜索,并手動選擇圖像進(jìn)行下載。由于需要大量數(shù)據(jù),因此此方法效率不高。

值得注意的是,網(wǎng)絡(luò)上的圖像可能受版權(quán)保護(hù)。記得在使用圖像之前檢查圖像的版權(quán)。

或者你可以寫一個程序來爬取網(wǎng)絡(luò)并下載你想要的圖像。同樣需要注意檢查每個圖像的版權(quán)。

3. 拍攝

如果找不到所需物體的圖像,可以通過拍照來收集它們。這可以手動完成,即通過自己拍攝每張圖像或通過雇用其他人為你拍攝。

收集真實世界圖像的另一種方法是在你的場景中安裝編程的攝像機,以便自動收集圖像。

4. 數(shù)據(jù)增強

我們知道深度學(xué)習(xí)模型需要大量的數(shù)據(jù)。當(dāng)你只有一個小數(shù)據(jù)集時,可能不足以訓(xùn)練一個好的模型。在這種情況下,你可以使用數(shù)據(jù)增強來生成更多訓(xùn)練數(shù)據(jù)。

幾何變換(如翻轉(zhuǎn)、裁剪、旋轉(zhuǎn)和平移)是一些常用的數(shù)據(jù)增強技術(shù)。應(yīng)用圖像數(shù)據(jù)增強不僅可以通過創(chuàng)建變體來擴展數(shù)據(jù)集,還可以減少過擬合。

左邊是狗的原始圖像,右邊是水平翻轉(zhuǎn)的圖像
貓的原始和隨機裁剪圖像
貓的原始和旋轉(zhuǎn)圖像
網(wǎng)球的原始和翻譯圖像

5. 數(shù)據(jù)生成

有時可能無法獲得真實數(shù)據(jù)。在這種情況下,可以生成合成數(shù)據(jù)來訓(xùn)練自定義檢測模型。由于其成本相對較低,合成數(shù)據(jù)生成的使用在機器學(xué)習(xí)中一直在不斷增加。

生成對抗網(wǎng)絡(luò) (GAN) 是用于合成數(shù)據(jù)生成的眾多技術(shù)之一。GAN是一種生成建模技術(shù),其中從數(shù)據(jù)集創(chuàng)建人工實例的方式保留了原始集的相似特征。

總結(jié)

收集訓(xùn)練數(shù)據(jù)集是訓(xùn)練你自定義檢測模型的第一步。在這篇文章中,我們研究了用于收集圖像數(shù)據(jù)的一些技術(shù),包括搜索開源數(shù)據(jù)集、爬取網(wǎng)絡(luò)、手動拍攝或使用程序拍攝、使用數(shù)據(jù)增強技術(shù)以及生成合成數(shù)據(jù)集。

預(yù)訓(xùn)練模型最近也是熱門方向,論文資料學(xué)姐自然也在整理啦?。ùa出火星子)

關(guān)注“學(xué)姐帶你玩AI”公眾號,回復(fù)“預(yù)訓(xùn)練模型”領(lǐng)取代碼數(shù)據(jù)集

分享5種收集數(shù)據(jù)集以訓(xùn)練自定義模型的方法的評論 (共 條)

分享到微博請遵守國家法律
石城县| 宁安市| 莫力| 新泰市| 宝丰县| 达拉特旗| 灵山县| 扶余县| 固安县| 六盘水市| 鲁山县| 霍州市| 武陟县| 湟中县| 南汇区| 彭水| 天长市| 信阳市| 钦州市| 高邮市| 茶陵县| 红安县| 牡丹江市| 双辽市| 柯坪县| 常德市| 泰州市| 通化县| 固镇县| 三穗县| 九江市| 唐山市| 凤山县| 和顺县| 易门县| 汤原县| 北辰区| 沈丘县| 玛沁县| 辰溪县| 托里县|