分享5種收集數(shù)據(jù)集以訓(xùn)練自定義模型的方法
來源:投稿 作者:王同學(xué)
編輯:學(xué)姐
在過去的十年中,深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域中的應(yīng)用逐年增加。其中當(dāng)屬「行人檢測」和「車輛檢測」最為火爆,其原因之一就是「預(yù)訓(xùn)練模型」的「可復(fù)用性」。
由于深度學(xué)習(xí)技術(shù)在這些應(yīng)用場景上取得的卓越效果,企業(yè)現(xiàn)在已經(jīng)開始使用深度學(xué)習(xí)來解決自己的問題。
但是,如果可用的預(yù)訓(xùn)練模型不適合你的應(yīng)用場景,這時你們會怎么解決呢?
一個預(yù)先訓(xùn)練的模型能夠檢測到蘋果,但它肯定不能區(qū)分“好蘋果”和“爛蘋果”,因為它從未“被教過”這樣做。
那么如果遇到了這種情況「你會怎么做呢?」
“獲得大量的好蘋果和爛蘋果的圖像,并訓(xùn)練一個自定義檢測模型!”

在創(chuàng)建一個好的自定義檢測模型時,一個常見的挑戰(zhàn)就是「數(shù)據(jù)問題」。深度學(xué)習(xí)模型需要大量的數(shù)據(jù)來訓(xùn)練它們的算法——正如我們在MaskRCNN
、YOLO
和UNet
等模型中看到的那樣,這些模型都是在現(xiàn)有的大型數(shù)據(jù)集COCO
和ImageNet
上訓(xùn)練得到的。
如何獲取用于訓(xùn)練自定義檢測模型的數(shù)據(jù)?
在這篇文章中,我們將探討收集數(shù)據(jù)集來訓(xùn)練自定義檢測模型的5種方法。
1. 公開可用的開放標(biāo)記數(shù)據(jù)集
如果你比較幸運,你可能會在互聯(lián)網(wǎng)上獲得你想要的已標(biāo)記數(shù)據(jù)集。以下是幾個可供你選擇的計算機視覺領(lǐng)域圖像數(shù)據(jù)集。
「ImageNet」
ImageNet
是一個計算機視覺系統(tǒng)識別項目, 是目前世界上圖像識別最大的數(shù)據(jù)庫。ImageNet
是美國斯坦福的計算機科學(xué)家模擬人類的識別系統(tǒng)建立的。能夠從圖片識別物體。ImageNet
數(shù)據(jù)集文檔詳細(xì),有專門的團隊維護(hù),使用非常方便,在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣,幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。ImageNet
中目前共有 14,197,122
幅圖像,總共分為21,841
個類別,通常我們所說的 ImageNet
數(shù)據(jù)集其實是指 ISLVRC2012
比賽用的子數(shù)據(jù)集,其中 train
有1,281,167
張照片和標(biāo)簽,共1000
類,大概每類1300
張圖片,val
有50,000
副圖像,每類50
個數(shù)據(jù),test
有 100,000
副圖片,每類100
個數(shù)據(jù)。

「MS COCO」
COCO
數(shù)據(jù)集是微軟團隊發(fā)布的一個可以用來圖像recognition+segmentation+captioning
數(shù)據(jù)集,該數(shù)據(jù)集收集了大量包含常見物體的日常場景圖片,并提供像素級的實例標(biāo)注以更精確地評估檢測和分割算法的效果,致力于推動場景理解的研究進(jìn)展。依托這一數(shù)據(jù)集,每年舉辦一次比賽,現(xiàn)已涵蓋檢測、分割、關(guān)鍵點識別、注釋等機器視覺的中心任務(wù),是繼ImageNet Chanllenge
以來最有影響力的學(xué)術(shù)競賽之一。
COCO
的檢測任務(wù)共含有80
個類,在2014年發(fā)布的數(shù)據(jù)規(guī)模分train/val/test
分別為80k/40k/40k
,學(xué)術(shù)界較為通用的劃分是使用train
和35k
的val
子集作為訓(xùn)練集(trainval35k
),使用剩余的val
作為測試集(minival
),同時向官方的evaluation server
提交結(jié)果(test-dev
)。除此之外,COCO
官方也保留一部分test
數(shù)據(jù)作為比賽的評測集。

「Google Open Image」

Open Image
是谷歌團隊發(fā)布的數(shù)據(jù)集。 它包含了190
萬張圖片上600
個物體類別的16M
個邊界框,使其成為現(xiàn)有的最大的帶有物體位置注釋的數(shù)據(jù)集。這些方框主要是由專業(yè)注釋者手工繪制的,以確保準(zhǔn)確性和一致性。這些圖像非常多樣化,通常包含有多個物體的復(fù)雜場景(平均每張圖像8.3
個)。
「MNIST 手寫數(shù)據(jù)集」
「MNIST 手寫數(shù)據(jù)集:」該數(shù)據(jù)集總共有 70,000
張手寫數(shù)字圖像,是 NIST 提供的更大數(shù)據(jù)集的子集。數(shù)字已進(jìn)行大小規(guī)范化,并在固定大小的圖像中居中。

「DOTA」
DOTA是遙感航空圖像檢測的常用數(shù)據(jù)集,包含2806
張航空圖像,尺寸大約為4k×4k
,包含15
個類別共計188282
個實例,其中14
個主類,small vehicle
和 large vehicle
都是vehicle
的子類。其標(biāo)注方式為四點確定的任意形狀和方向的四邊形。航空圖像區(qū)別于傳統(tǒng)數(shù)據(jù)集,有其自己的特點,如:尺度變化性更大;密集的小物體檢測;檢測目標(biāo)的不確定性。數(shù)據(jù)劃分為1/6
驗證集,1/3
測試集,1/2
訓(xùn)練集。目前發(fā)布了訓(xùn)練集和驗證集,圖像尺寸從800×800
到4000×4000
不等。

2. 爬取網(wǎng)絡(luò)圖像
另一種選擇是在網(wǎng)絡(luò)上進(jìn)行圖像搜索,并手動選擇圖像進(jìn)行下載。由于需要大量數(shù)據(jù),因此此方法效率不高。
值得注意的是,網(wǎng)絡(luò)上的圖像可能受版權(quán)保護(hù)。記得在使用圖像之前檢查圖像的版權(quán)。
或者你可以寫一個程序來爬取網(wǎng)絡(luò)并下載你想要的圖像。同樣需要注意檢查每個圖像的版權(quán)。

3. 拍攝
如果找不到所需物體的圖像,可以通過拍照來收集它們。這可以手動完成,即通過自己拍攝每張圖像或通過雇用其他人為你拍攝。
收集真實世界圖像的另一種方法是在你的場景中安裝編程的攝像機,以便自動收集圖像。

4. 數(shù)據(jù)增強
我們知道深度學(xué)習(xí)模型需要大量的數(shù)據(jù)。當(dāng)你只有一個小數(shù)據(jù)集時,可能不足以訓(xùn)練一個好的模型。在這種情況下,你可以使用數(shù)據(jù)增強來生成更多訓(xùn)練數(shù)據(jù)。
幾何變換(如翻轉(zhuǎn)、裁剪、旋轉(zhuǎn)和平移)是一些常用的數(shù)據(jù)增強技術(shù)。應(yīng)用圖像數(shù)據(jù)增強不僅可以通過創(chuàng)建變體來擴展數(shù)據(jù)集,還可以減少過擬合。




5. 數(shù)據(jù)生成
有時可能無法獲得真實數(shù)據(jù)。在這種情況下,可以生成合成數(shù)據(jù)來訓(xùn)練自定義檢測模型。由于其成本相對較低,合成數(shù)據(jù)生成的使用在機器學(xué)習(xí)中一直在不斷增加。
生成對抗網(wǎng)絡(luò) (GAN
) 是用于合成數(shù)據(jù)生成的眾多技術(shù)之一。GAN
是一種生成建模技術(shù),其中從數(shù)據(jù)集創(chuàng)建人工實例的方式保留了原始集的相似特征。

總結(jié)
收集訓(xùn)練數(shù)據(jù)集是訓(xùn)練你自定義檢測模型的第一步。在這篇文章中,我們研究了用于收集圖像數(shù)據(jù)的一些技術(shù),包括搜索開源數(shù)據(jù)集、爬取網(wǎng)絡(luò)、手動拍攝或使用程序拍攝、使用數(shù)據(jù)增強技術(shù)以及生成合成數(shù)據(jù)集。
預(yù)訓(xùn)練模型最近也是熱門方向,論文資料學(xué)姐自然也在整理啦?。ùa出火星子)
關(guān)注“學(xué)姐帶你玩AI”公眾號,回復(fù)“預(yù)訓(xùn)練模型”領(lǐng)取代碼數(shù)據(jù)集