散文網(wǎng) » 科技 »學(xué)習(xí) » 分享5種收集數(shù)據(jù)集以訓(xùn)練自定義模型的方法

分享5種收集數(shù)據(jù)集以訓(xùn)練自定義模型的方法

2023-05-23 11:46 作者:深度之眼官方賬號 0人讀過 | 我要投稿

來源：投稿作者：王同學(xué)
編輯：學(xué)姐

在過去的十年中，深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域中的應(yīng)用逐年增加。其中當(dāng)屬「行人檢測」和「車輛檢測」最為火爆，其原因之一就是「預(yù)訓(xùn)練模型」的「可復(fù)用性」。

由于深度學(xué)習(xí)技術(shù)在這些應(yīng)用場景上取得的卓越效果，企業(yè)現(xiàn)在已經(jīng)開始使用深度學(xué)習(xí)來解決自己的問題。

但是，如果可用的預(yù)訓(xùn)練模型不適合你的應(yīng)用場景，這時你們會怎么解決呢?

一個預(yù)先訓(xùn)練的模型能夠檢測到蘋果，但它肯定不能區(qū)分“好蘋果”和“爛蘋果”，因為它從未“被教過”這樣做。

那么如果遇到了這種情況「你會怎么做呢?」

“獲得大量的好蘋果和爛蘋果的圖像，并訓(xùn)練一個自定義檢測模型！”

在創(chuàng)建一個好的自定義檢測模型時，一個常見的挑戰(zhàn)就是「數(shù)據(jù)問題」。深度學(xué)習(xí)模型需要大量的數(shù)據(jù)來訓(xùn)練它們的算法——正如我們在MaskRCNN、YOLO和UNet等模型中看到的那樣，這些模型都是在現(xiàn)有的大型數(shù)據(jù)集COCO和ImageNet上訓(xùn)練得到的。

如何獲取用于訓(xùn)練自定義檢測模型的數(shù)據(jù)？

在這篇文章中，我們將探討收集數(shù)據(jù)集來訓(xùn)練自定義檢測模型的5種方法。

1. 公開可用的開放標(biāo)記數(shù)據(jù)集

如果你比較幸運，你可能會在互聯(lián)網(wǎng)上獲得你想要的已標(biāo)記數(shù)據(jù)集。以下是幾個可供你選擇的計算機視覺領(lǐng)域圖像數(shù)據(jù)集。

「ImageNet」

ImageNet是一個計算機視覺系統(tǒng)識別項目，是目前世界上圖像識別最大的數(shù)據(jù)庫。ImageNet是美國斯坦福的計算機科學(xué)家模擬人類的識別系統(tǒng)建立的。能夠從圖片識別物體。ImageNet數(shù)據(jù)集文檔詳細(xì)，有專門的團隊維護(hù)，使用非常方便，在計算機視覺領(lǐng)域研究論文中應(yīng)用非常廣，幾乎成為了目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。ImageNet中目前共有 14,197,122幅圖像，總共分為21,841個類別，通常我們所說的 ImageNet 數(shù)據(jù)集其實是指 ISLVRC2012 比賽用的子數(shù)據(jù)集，其中 train 有1,281,167 張照片和標(biāo)簽，共1000類，大概每類1300張圖片，val 有50,000副圖像，每類50 個數(shù)據(jù)，test 有 100,000副圖片，每類100個數(shù)據(jù)。

「MS COCO」

COCO數(shù)據(jù)集是微軟團隊發(fā)布的一個可以用來圖像recognition+segmentation+captioning 數(shù)據(jù)集，該數(shù)據(jù)集收集了大量包含常見物體的日常場景圖片，并提供像素級的實例標(biāo)注以更精確地評估檢測和分割算法的效果，致力于推動場景理解的研究進(jìn)展。依托這一數(shù)據(jù)集，每年舉辦一次比賽，現(xiàn)已涵蓋檢測、分割、關(guān)鍵點識別、注釋等機器視覺的中心任務(wù)，是繼ImageNet Chanllenge以來最有影響力的學(xué)術(shù)競賽之一。

COCO的檢測任務(wù)共含有80個類，在2014年發(fā)布的數(shù)據(jù)規(guī)模分train/val/test分別為80k/40k/40k，學(xué)術(shù)界較為通用的劃分是使用train和35k的val子集作為訓(xùn)練集（trainval35k），使用剩余的val作為測試集（minival），同時向官方的evaluation server提交結(jié)果（test-dev）。除此之外，COCO官方也保留一部分test數(shù)據(jù)作為比賽的評測集。

「Google Open Image」

Open Image是谷歌團隊發(fā)布的數(shù)據(jù)集。它包含了190萬張圖片上600個物體類別的16M個邊界框，使其成為現(xiàn)有的最大的帶有物體位置注釋的數(shù)據(jù)集。這些方框主要是由專業(yè)注釋者手工繪制的，以確保準(zhǔn)確性和一致性。這些圖像非常多樣化，通常包含有多個物體的復(fù)雜場景（平均每張圖像8.3個）。

「MNIST 手寫數(shù)據(jù)集」

「MNIST 手寫數(shù)據(jù)集：」該數(shù)據(jù)集總共有 70,000 張手寫數(shù)字圖像，是 NIST 提供的更大數(shù)據(jù)集的子集。數(shù)字已進(jìn)行大小規(guī)范化，并在固定大小的圖像中居中。

「DOTA」

DOTA是遙感航空圖像檢測的常用數(shù)據(jù)集，包含2806張航空圖像，尺寸大約為4k×4k，包含15個類別共計188282個實例，其中14個主類，small vehicle 和 large vehicle都是vehicle的子類。其標(biāo)注方式為四點確定的任意形狀和方向的四邊形。航空圖像區(qū)別于傳統(tǒng)數(shù)據(jù)集，有其自己的特點，如：尺度變化性更大；密集的小物體檢測；檢測目標(biāo)的不確定性。數(shù)據(jù)劃分為1/6驗證集，1/3測試集，1/2訓(xùn)練集。目前發(fā)布了訓(xùn)練集和驗證集，圖像尺寸從800×800到4000×4000不等。

2. 爬取網(wǎng)絡(luò)圖像

另一種選擇是在網(wǎng)絡(luò)上進(jìn)行圖像搜索，并手動選擇圖像進(jìn)行下載。由于需要大量數(shù)據(jù)，因此此方法效率不高。

值得注意的是，網(wǎng)絡(luò)上的圖像可能受版權(quán)保護(hù)。記得在使用圖像之前檢查圖像的版權(quán)。

或者你可以寫一個程序來爬取網(wǎng)絡(luò)并下載你想要的圖像。同樣需要注意檢查每個圖像的版權(quán)。

3. 拍攝

如果找不到所需物體的圖像，可以通過拍照來收集它們。這可以手動完成，即通過自己拍攝每張圖像或通過雇用其他人為你拍攝。

收集真實世界圖像的另一種方法是在你的場景中安裝編程的攝像機，以便自動收集圖像。

4. 數(shù)據(jù)增強

我們知道深度學(xué)習(xí)模型需要大量的數(shù)據(jù)。當(dāng)你只有一個小數(shù)據(jù)集時，可能不足以訓(xùn)練一個好的模型。在這種情況下，你可以使用數(shù)據(jù)增強來生成更多訓(xùn)練數(shù)據(jù)。

幾何變換（如翻轉(zhuǎn)、裁剪、旋轉(zhuǎn)和平移）是一些常用的數(shù)據(jù)增強技術(shù)。應(yīng)用圖像數(shù)據(jù)增強不僅可以通過創(chuàng)建變體來擴展數(shù)據(jù)集，還可以減少過擬合。

5. 數(shù)據(jù)生成

有時可能無法獲得真實數(shù)據(jù)。在這種情況下，可以生成合成數(shù)據(jù)來訓(xùn)練自定義檢測模型。由于其成本相對較低，合成數(shù)據(jù)生成的使用在機器學(xué)習(xí)中一直在不斷增加。

生成對抗網(wǎng)絡(luò) （GAN）是用于合成數(shù)據(jù)生成的眾多技術(shù)之一。GAN是一種生成建模技術(shù)，其中從數(shù)據(jù)集創(chuàng)建人工實例的方式保留了原始集的相似特征。

總結(jié)

收集訓(xùn)練數(shù)據(jù)集是訓(xùn)練你自定義檢測模型的第一步。在這篇文章中，我們研究了用于收集圖像數(shù)據(jù)的一些技術(shù)，包括搜索開源數(shù)據(jù)集、爬取網(wǎng)絡(luò)、手動拍攝或使用程序拍攝、使用數(shù)據(jù)增強技術(shù)以及生成合成數(shù)據(jù)集。

預(yù)訓(xùn)練模型最近也是熱門方向，論文資料學(xué)姐自然也在整理啦?。ùa出火星子）

關(guān)注“學(xué)姐帶你玩AI”公眾號，回復(fù)“預(yù)訓(xùn)練模型”領(lǐng)取代碼數(shù)據(jù)集

標(biāo)簽：