最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

跨域小樣本系列2:常用數(shù)據(jù)集詳解

2023-05-22 11:42 作者:深度之眼官方賬號(hào)  | 我要投稿

來(lái)源:投稿 作者:橡皮
編輯:學(xué)姐

引言

在上一期主要介紹了關(guān)于小樣本學(xué)習(xí)的基本概念以及在不同領(lǐng)域其不可忽視的實(shí)際作用。當(dāng)我們對(duì)一個(gè)機(jī)器學(xué)習(xí)任務(wù)的定義有了初步了解之后,下一步需要去做的就是接觸任務(wù)所使用的數(shù)據(jù)集,一般分為兩類:真實(shí)自定義數(shù)據(jù)集和公開(kāi)數(shù)據(jù)集。

前者主要面向業(yè)界的具體落地應(yīng)用,而后者主要面向?qū)W術(shù)界的state-of-the-art迭代,通常來(lái)講在公開(kāi)數(shù)據(jù)集上的算法更新速度快,自定義數(shù)據(jù)集的設(shè)定其實(shí)是根據(jù)具體任務(wù)并最大程度上追求接近公開(kāi)數(shù)據(jù)集的結(jié)構(gòu)。因此,在此總結(jié)了較常用的5個(gè)公開(kāi)數(shù)據(jù)集,方便從學(xué)術(shù)探究角度的入門(mén)理解以及代碼復(fù)現(xiàn)。

說(shuō)明

對(duì)于小樣本學(xué)習(xí)的公開(kāi)數(shù)據(jù)集是否被學(xué)術(shù)界認(rèn)可/是否為常用的選擇依據(jù)均來(lái)自paper with code的分類任務(wù)排行榜[https://paperswithcode.com/task/few-shot-image-classification]

關(guān)于FSL數(shù)據(jù)集設(shè)置

小樣本學(xué)習(xí)的目標(biāo)是使用數(shù)量較少的訓(xùn)練集來(lái)構(gòu)建準(zhǔn)確的機(jī)器學(xué)習(xí)模型,可用數(shù)據(jù)的設(shè)定上與其他數(shù)據(jù)集也不盡相同。

1.Imagenet

Imagenet作為對(duì)深度學(xué)習(xí)領(lǐng)域推動(dòng)力最大的圖像分類數(shù)據(jù)集,同樣也在小樣本學(xué)習(xí)的分類任務(wù)中有著不小的貢獻(xiàn)?;贗magenet進(jìn)行修改設(shè)定適用于小樣本學(xué)習(xí)任務(wù)的數(shù)據(jù)集有:Imagenet-1K, mini-Imagenet, tiered-Imagenet。

ImageNet-1K Challenge數(shù)據(jù)集采樣于ImageNet數(shù)據(jù)集,共包含1000類別。使用中通常劃分為基礎(chǔ)數(shù)據(jù)集(389個(gè)類別)和新樣本數(shù)據(jù)集(611種)。

[paper]Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.

[Download] http://www.image-net.org/

Mini-ImageNet數(shù)據(jù)集是從ImageNet數(shù)據(jù)集中采樣了60000張圖像構(gòu)成,共包含100類別,每個(gè)類別600張圖像,圖像的尺寸為84*84。在實(shí)際的使用中,通常選擇其中80類的圖像作為訓(xùn)練集,剩余20類的圖像作為驗(yàn)證集。也有的文章將其分為基礎(chǔ)集(Base Class,64種),驗(yàn)證集(Validation Class,16種)和新類別集(Novel Class,20種)。

[paper]Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.是由 Matching Networks for One Shot Learning [NeurIPS 2016]

[Download]https://pan.baidu.com/share/init?surl=bQTtrkEgWfs_iaVRwxPF3Q(33e7)

Tiered Imagenet數(shù)據(jù)集也是從ImageNet數(shù)據(jù)集中選取的,包含34個(gè)大類(Categories),每個(gè)大類有包含10-30個(gè)小類(Classes),每個(gè)類別有數(shù)量不等的多個(gè)圖像樣本,共計(jì)608個(gè)類別,779165張圖像(平均每個(gè)類別包含1281張圖片)。34個(gè)大類可劃分為訓(xùn)練集(20大類),驗(yàn)證集(6大類)和測(cè)試集(8大類)。

[paper] Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.

[Download]https://link.zhihu.com/?target=https%3A//drive.google.com/uc%3Fexport%3Ddownload%26confirm%3D_SLS%26id%3D1g1aIDy2Ar_MViF2gDXFYDBTR-HYeCV07

2.CIFAR

CIFAR數(shù)據(jù)集同樣能夠通過(guò)使用生成mini-ImageNet的相同標(biāo)準(zhǔn)從CIFAR-100(Krizhevsky & Hinton, 2009)中隨機(jī)抽取的。 平均類間相似度很高,對(duì)目前的技術(shù)水平是個(gè)挑戰(zhàn)。此外,32×32的有限原始分辨率使任務(wù)更加困難,同時(shí)也允許快速的原型設(shè)計(jì)。由此衍生出兩種用于小樣本異常檢測(cè)的CIFAR數(shù)據(jù)集。

CIFAR-FS

CIFAR-FS數(shù)據(jù)集全稱為CIFAR100 Few-Shots數(shù)據(jù)集,是來(lái)自于CIFAR 100數(shù)據(jù)集,共包含100類別,每個(gè)類別600張圖像,合計(jì)60,000張圖像。使用中通常劃分為訓(xùn)練集(64種),驗(yàn)證集(16種)和測(cè)試集(20種),圖像尺寸統(tǒng)一為32*32。

[paper]Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.

[Download] https://pan.baidu.com/share/init?surl=HqRUw3dmsMBInt_Fh3J_Uw (ub38)

CIFAR100

FC100數(shù)據(jù)集全稱是Few-shot CIFAR100數(shù)據(jù)集,與上文的CIFAR-FS數(shù)據(jù)集類似,同樣來(lái)自CIFAR100數(shù)據(jù)集,共包含100類別,每個(gè)類別600張圖像,合計(jì)60,000張圖像。

但不同之處在于 FC100不是按照類別(Class)進(jìn)行劃分的,而是按照超類(Superclass)進(jìn)行劃分的。共包含20個(gè)超類(60個(gè)類別),其中訓(xùn)練集12個(gè)超類,驗(yàn)證集4個(gè)超類(20個(gè)類別),測(cè)試集4個(gè)超類(20個(gè)類別)。

[paper] Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.

[Download] https://pan.baidu.com/share/init?surl=Wnlp1-obKsMLcHITYQ1CLg (kcd6)

3.CUB 200

Caltech-UCSD Birds-200-2011(CUB-200-2011)數(shù)據(jù)集是最廣泛使用的細(xì)粒度視覺(jué)分類任務(wù)的數(shù)據(jù)集。它包含了屬于鳥(niǎo)類的200個(gè)子類別的11,788幅圖像,其中5,994幅用于訓(xùn)練,5,794幅用于測(cè)試。每張圖片都有詳細(xì)的注釋。

1個(gè)子類別標(biāo)簽,15個(gè)部位位置,312個(gè)二元屬性和1個(gè)邊界框。文字信息來(lái)自于Reed等人。他們通過(guò)收集細(xì)粒度的自然語(yǔ)言描述來(lái)擴(kuò)展CUB-200-2011數(shù)據(jù)集。每張圖片都收集了10個(gè)單句描述。

自然語(yǔ)言描述是通過(guò)Amazon Mechanical Turk(AMT)平臺(tái)收集的,要求至少有10個(gè)單詞,沒(méi)有任何子類別和動(dòng)作的信息。

4.Meta-Dataset

Meta-Dataset基準(zhǔn)是一個(gè)大型的小樣本學(xué)習(xí)基準(zhǔn),由不同數(shù)據(jù)分布的多個(gè)數(shù)據(jù)集組成。它并不限制小樣本任務(wù)有固定的種類和數(shù)量,因此代表了一個(gè)更真實(shí)的場(chǎng)景。它由來(lái)自不同領(lǐng)域的10個(gè)數(shù)據(jù)集組成。

  • ILSVRC-2012(ImageNet數(shù)據(jù)集,由1000個(gè)類別的自然圖像組成)。

  • Omniglot(手寫(xiě)的字符,1623個(gè)類別)

  • Aircraft(飛機(jī)圖像的數(shù)據(jù)集,100個(gè)類別)

  • CUB-200-2011(鳥(niǎo)類的數(shù)據(jù)集,200個(gè)類別)

  • Describable Textures(不同種類的紋理圖像,有43個(gè)類別)

  • Quick Draw(345個(gè)不同類別的黑白草圖)

  • Fungi (一個(gè)大型的蘑菇數(shù)據(jù)集,有1500個(gè)類別)

  • VGG Flower(有102個(gè)類別的花圖像數(shù)據(jù)集)。

  • Traffic Signs(德國(guó)交通標(biāo)志圖像,有43個(gè)類別)

  • MSCOCO(從Flickr收集的圖像,80個(gè)類別)。

除了Aircraft和MSCOCO,所有的數(shù)據(jù)集都有訓(xùn)練、驗(yàn)證和測(cè)試部分(比例大致為70%、15%、15%)。Aircraft和MSCOCO數(shù)據(jù)集只保留用于測(cè)試。

[paper]Triantafillou E, Zhu T, Dumoulin V, et al. Meta-dataset: A dataset of datasets for learning to learn from few examples[J]. arXiv preprint arXiv:1903.03096, 2019.

[Download]https://github.com/google-research/meta-dataset

5.Omniglot

Omniglot數(shù)據(jù)集是為開(kāi)發(fā)更像人類的學(xué)習(xí)算法而設(shè)計(jì)的。它包含來(lái)自50個(gè)不同語(yǔ)言的1623個(gè)不同的手寫(xiě)字符。這1623個(gè)字符中的每一個(gè)都是由20個(gè)不同的人通過(guò)亞馬遜的Mechanical Turk在線繪制的。每張圖片都與筆畫(huà)數(shù)據(jù)配對(duì),這是一個(gè)[x,y,t]坐標(biāo)序列,時(shí)間(t)為毫秒。使用中通常選擇1200種字符作為訓(xùn)練集,剩余的423種字符作為驗(yàn)證集,并通過(guò)旋轉(zhuǎn)90°,180°和270°進(jìn)行數(shù)據(jù)集擴(kuò)張,每張圖片通過(guò)裁剪將尺寸統(tǒng)一為28*28。

[paper]Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).

[Download]https://github.com/brendenlake/omniglot

以上即為五大類數(shù)據(jù)集中的8小類專門(mén)用于小樣本學(xué)習(xí)算法和模型評(píng)估的公開(kāi)數(shù)據(jù)集的基本介紹和下載地址。

在進(jìn)入下一節(jié)學(xué)習(xí)具體的小樣本算法之前,建議先閱讀提出數(shù)據(jù)集的論文,先將作者對(duì)于不同數(shù)據(jù)集在小樣本學(xué)習(xí)中所注重的側(cè)重點(diǎn)搞清楚。

相關(guān)論文學(xué)姐也在飛速整理中

大家可以關(guān)注“學(xué)姐帶你玩AI”公眾號(hào),整理好了會(huì)分享

直接領(lǐng)取就行!其他論文資料后臺(tái)回復(fù)“500”免費(fèi)領(lǐng)取哈!

跨域小樣本系列2:常用數(shù)據(jù)集詳解的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
社会| 庄浪县| 兴仁县| 泗阳县| 鹤壁市| 洛宁县| 涪陵区| 巢湖市| 虎林市| 高青县| 象山县| 甘德县| 天水市| 泾阳县| 彝良县| 重庆市| 三亚市| 彰化县| 蛟河市| 正定县| 肇州县| 博客| 嘉义县| 洛川县| 赞皇县| 灵寿县| 临泉县| 项城市| 阿合奇县| 科尔| 阿拉善盟| 西华县| 建阳市| 苗栗市| 太谷县| 邹城市| 牟定县| 平南县| 鸡泽县| 阿尔山市| 娱乐|