圖像分類方向優(yōu)質開源數(shù)據(jù)集匯總(附下載鏈接)
花卉數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/6rTT7n
該數(shù)據(jù)集包含 4242 張花卉圖像。數(shù)據(jù)收集基于數(shù)據(jù)flicr、google images、yandex images。此數(shù)據(jù)集可用于從照片中識別植物。數(shù)據(jù)圖片會分為五類:洋甘菊、郁金香、玫瑰、向日葵、蒲公英。每個種類大約有800張照片。照片分辨率不高,約為 320x240 像素。照片不會縮小到單一尺寸,它們有不同的比例。

綜合汽車數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/6rTTar
該數(shù)據(jù)集是被CVPR 2015 論文“用于細粒度分類和驗證的大規(guī)模汽車數(shù)據(jù)集”所使用的。綜合汽車 (CompCars) 數(shù)據(jù)集包含來自兩個場景的數(shù)據(jù),包括來自網(wǎng)絡自然和監(jiān)視自然的圖像。web-nature 數(shù)據(jù)包含 163 個汽車制造商和 1,716 個汽車型號??偣灿?136,726 張拍攝整車的圖像和 27,618 張拍攝汽車零件的圖像。完整的汽車圖像標有邊界框和視點。每個車型都標有五個屬性,包括最大速度、排量、門數(shù)、座位數(shù)和汽車類型。監(jiān)控性質的數(shù)據(jù)包含在前視圖中捕獲的 50,000 張汽車圖像。

室內場景識別
數(shù)據(jù)集下載地址:http://m6z.cn/5PCpJ5
該數(shù)據(jù)集是麻省理工學院提供的原始數(shù)據(jù)。室內場景識別是高層次視覺中一個具有挑戰(zhàn)性的開放性問題。大多數(shù)適用于室外場景的場景識別模型在室內領域表現(xiàn)不佳。主要困難在于,雖然一些室內場景(例如走廊)可以通過全局空間屬性很好地表征,但其他的(例如書店)可以通過它們包含的對象更好地表征。更一般地說,為了解決室內場景識別問題,我們需要一個可以利用局部和全局判別信息的模型。該數(shù)據(jù)庫包含 67 個室內類別,共 15620 張圖像。圖片的數(shù)量因類別而異,但每個類別至少有 100 張圖片。所有圖片均為jpg格式。

90種動物圖像數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/6rTTbJ
在這個數(shù)據(jù)集中有 90 個不同類別的 5400 張動物圖像。此數(shù)據(jù)集是從 Google 圖片創(chuàng)建的:https://images.google.com/。所有照片將按照其所屬類別存放于各自的文件夾下。動物類別包括:羚羊,獾,蝙蝠,熊,蜜蜂,甲蟲,野牛,公豬,蝴蝶,貓 毛蟲,黑猩猩等。該數(shù)據(jù)集中的圖像大小不固定,可能需要后續(xù)的處理。

飛機數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/5X8CPy
數(shù)據(jù)集包含 10,000 張飛機圖像,數(shù)據(jù)分為 3334 個訓練圖像、3333 個驗證圖像和 3333 個測試圖像。

衣服數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/64EPUp
衣服數(shù)據(jù)集總共收集了 20 種衣服的 5,000 張圖像。該數(shù)據(jù)集是根據(jù)公共領域許可 (CC0) 發(fā)布的。我們使用了三種不同的方式來收集數(shù)據(jù)集:Toloka——眾包平臺;社交媒體上的網(wǎng)絡眾包計劃;Tagias——一家專門從事數(shù)據(jù)收集的公司。標簽是使用 IPython 小部件手動完成的,同時我們使用簡單的神經(jīng)網(wǎng)絡糾正了標簽錯誤。
數(shù)據(jù)集包含 20 個類,包括T 恤(1011 件),長袖(699 件),褲子(692 件),鞋子(431 件)襯衫(378 件),連衣裙(357 件),外套(312 件),短褲(308 件),帽子(171 件),裙子(155 件),西裝外套(109 件)等。

商標數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/6cb2HG
在這項工作中,我們構建了一個大規(guī)模的 logo 數(shù)據(jù)集 Logo-2K+,它涵蓋了來自真實世界 logo 圖像的各種 logo 類別。我們生成的徽標數(shù)據(jù)集包含 167,140 張圖像,具有 10 個根類別和 2,341 個類別。

Office-Home數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/5I6cFG
Office-Home 是一個用于域適應的基準數(shù)據(jù)集,它包含 4 個域,每個域由 65 個類別組成。這四個領域是:藝術——素描、繪畫、裝飾等形式的藝術形象;剪貼畫——剪貼畫圖像的集合;產品——沒有背景的物體圖像;和真實世界——用普通相機拍攝的物體圖像。它包含 15,500 張圖像,平均每個類大約 70 張圖像,一個類最多 99 張圖像。

食物圖像數(shù)據(jù)集
數(shù)據(jù)集下載地址:http://m6z.cn/6rdsSw
該數(shù)據(jù)集包含完整 food-101 數(shù)據(jù)的許多不同子集。為了給圖像分析制作一個比 CIFAR10 或 MNIST 更簡單的訓練集,該數(shù)據(jù)包括圖像的大規(guī)??s小版本,以實現(xiàn)快速測試。數(shù)據(jù)已被重新格式化為 HDF5,特別是 Keras HDF5Matrix,這樣可以輕松讀取它們。文件名表示文件的內容。例如
foodc101n1000_r384x384x3.h5 表示有 101 個類別,n=1000 圖像,分辨率為 384x384x3(RGB,uint8) foodtestc101n1000r32x32x1.h5 表示數(shù)據(jù)是驗證集的一部分,代表 101 個類別,n=1000 圖像,分辨率為 32x32x1(float32 從 -1 到 1)
使用該數(shù)據(jù)集的第一個目標是對未知圖像進行分類,但除此之外,還可以查看哪些區(qū)域/圖像組件對進行分類很重要,將新類型的食物識別為現(xiàn)有標簽的組合,構建對象檢測器,可以在整個場景中找到相似的對象。
