41 物體檢測(cè)和數(shù)據(jù)集【動(dòng)手學(xué)深度學(xué)習(xí)v2】

物體檢測(cè)和數(shù)據(jù)集
- object detection / object recognition
目標(biāo)檢測(cè)和圖片分類的區(qū)別
圖片分類:
- 在圖像分類任務(wù)中,假設(shè)圖像中只有一個(gè)主要物體對(duì)象,目標(biāo)是識(shí)別出這個(gè)主要物體對(duì)象的類別(其他東西相對(duì)來(lái)說(shuō)就不那么重要了)
目標(biāo)檢測(cè):
- 在目標(biāo)檢測(cè)任務(wù)中,一張圖像里往往不只一個(gè)感興趣的物體對(duì)象,目標(biāo)不僅僅是識(shí)別圖像中所有感興趣的物體(找出所有感興趣的物體),還要找出它們?cè)趫D像中所在的具體位置(通過(guò)方框來(lái)表示)
目標(biāo)檢測(cè)相對(duì)于圖片分類來(lái)講所做的工作更多,它需要找出所有感興趣的物體,當(dāng)圖片中只有一個(gè)物體時(shí),可以將目標(biāo)檢測(cè)看成是圖像分類,把圖像中最主要的物體當(dāng)作是圖片的類別,但是當(dāng)圖片中有多個(gè)物體的時(shí)候,目標(biāo)檢測(cè)不僅能將所有的物體都檢測(cè)出來(lái),還能將他們所在的位置標(biāo)注出來(lái),所以目標(biāo)檢測(cè)的應(yīng)用場(chǎng)景相對(duì)來(lái)講更多
目標(biāo)檢測(cè)的應(yīng)用
- 無(wú)人駕駛:通過(guò)識(shí)別拍攝到的視頻圖像中的車輛、行人、道路和障礙物的位置來(lái)規(guī)劃行進(jìn)路線
- 無(wú)人售后:通過(guò)目標(biāo)檢測(cè)識(shí)別客戶選購(gòu)的物品
- 機(jī)器人通常通過(guò)目標(biāo)檢測(cè)來(lái)檢測(cè)感興趣的目標(biāo)
- 安防領(lǐng)域使用目標(biāo)檢測(cè)來(lái)檢測(cè)異常目標(biāo),比如歹徒或者炸彈
邊緣框(boundingbox)
- 在目標(biāo)檢測(cè)中,通常使用邊界框來(lái)描述對(duì)象的空間位置
- 邊界框是矩形的
邊緣框可以用四個(gè)數(shù)字來(lái)定義(兩種常用的表示方法)
- (左上x,左上y,右下x,右下y)
- (中心x,中心y,寬,高)
正方向
- 對(duì)于 x 軸來(lái)說(shuō),向右為 x 軸的正方向,即 x 的值從左到右依次增大
- 對(duì)于 y 軸來(lái)說(shuō),向下為 y 軸的正方向,y 的值從上到下依次增大
目標(biāo)檢測(cè)數(shù)據(jù)集
- 目標(biāo)檢測(cè)領(lǐng)域沒(méi)有像MNIST和Fashion-MNIST那樣的小數(shù)據(jù)集
- 目標(biāo)檢測(cè)的數(shù)據(jù)集通常來(lái)說(shuō)比圖片分類的數(shù)據(jù)集小很多,因?yàn)闃?biāo)注的成本很高
- 對(duì)于圖片分類來(lái)說(shuō),最簡(jiǎn)單的就是給定一個(gè)CSV文件(圖片與標(biāo)號(hào)一一對(duì)應(yīng))或者是給定一個(gè)文件夾(每個(gè)類對(duì)應(yīng)一個(gè)子文件夾,對(duì)應(yīng)標(biāo)號(hào)的圖片放在子文件夾下)
- 對(duì)于目標(biāo)檢測(cè)來(lái)說(shuō)就不能簡(jiǎn)單的用文件夾的形式,因?yàn)橐粡垐D片中可能存在多個(gè)類,所以就不能放在子文件夾中,所以通常來(lái)說(shuō)目標(biāo)檢測(cè)的數(shù)據(jù)集的標(biāo)號(hào)需要額外存儲(chǔ)
- 假設(shè)使用文本文件存儲(chǔ)的話,每一行表示一個(gè)物體,每一行分別由圖片文件名(因?yàn)橐粡垐D片中可能有多個(gè)物體,所以同一個(gè)文件名可能會(huì)出現(xiàn)多次)、物體類別(標(biāo)號(hào))、邊緣框(圖片中物體的位置)組成,每一行一共有6(1+1+4)個(gè)值
COCO數(shù)據(jù)集
- 目標(biāo)檢測(cè)中比較常見(jiàn)的數(shù)據(jù)集,類似于Imagenet在圖片分類中的地位
- 訪問(wèn)地址:https://cocodataset.org/#home
- COCO數(shù)據(jù)集中有 80 個(gè)類別,330k 圖片,1.5M 物體(每張圖片中有多個(gè)物體)
數(shù)據(jù)集的讀取
讀取小批量的時(shí)候,圖像的小批量的形狀為(批量大小、通道數(shù)、高度、寬度),與圖像分類任務(wù)中的相同
標(biāo)簽的小批量的形狀為(批量大小,m,5)
- m:數(shù)據(jù)集的任何圖像中邊界框可能出現(xiàn)的最大數(shù)量
- 5:每個(gè)邊界框的標(biāo)簽將被長(zhǎng)度為 5 的數(shù)組表示:數(shù)組的第一個(gè)元素是邊界框中對(duì)象的類別,其中 -1 表示用于填充的非法邊界框;數(shù)組的其余 4 個(gè)元素是邊界框左上角和右下角(x,y)坐標(biāo)值
小批量計(jì)算雖然高效,但是要求每張圖像含有相同數(shù)量的邊界框,以便放在同一個(gè)批量中
- 通常圖像可能擁有不同數(shù)量個(gè)邊界框,所以,在達(dá)到 m 之前,邊界框少于 m 的圖像將被非法邊界框填充
總結(jié)
- 物體檢測(cè)不僅能夠識(shí)別圖片所有感興趣的物體的類別,還能夠識(shí)別他們的位置,該位置通常由矩形邊框表示
- 位置通常用邊緣框表示(通常有四個(gè)數(shù)字)
- 用于目標(biāo)檢測(cè)的數(shù)據(jù)加載與圖像分類的數(shù)據(jù)加載類似,但是,在目標(biāo)檢測(cè)中,標(biāo)簽還包含真實(shí)邊界框的信息,它不出現(xiàn)在圖像分類中
Q&A
- 1、老師你好,請(qǐng)問(wèn)想從事工業(yè)計(jì)算機(jī)視覺(jué)方向除了深度學(xué)習(xí)、C++、python等代碼能力、傳統(tǒng)計(jì)算機(jī)視覺(jué)方法外,還有哪些知識(shí)需要掌握??QA P4 - 00:00?
- 2、請(qǐng)問(wèn)一下老師yolo的anchor box具體是怎么發(fā)揮作用的??QA P4 - 00:46?
- 3、老師,目標(biāo)檢測(cè)會(huì)是自動(dòng)駕駛采用的主流方案嗎?目前業(yè)界的精度最高達(dá)到了多少呢??QA P4 - 00:56?
- 4、老師,有哪些批量標(biāo)注軟件/平臺(tái)值得推薦??QA P4 - 02:56?
- 5、請(qǐng)老師講解一下show_boxes(...,color=['w'])中最后一個(gè)參數(shù)color=['w']?QA P4 - 05:18?
- 6、老師,如果在工業(yè)檢測(cè)中數(shù)據(jù)集非常小(近百?gòu)垼?,除了進(jìn)行數(shù)據(jù)增強(qiáng)外,還有什么更好的方法嗎??QA P4 - 05:41?
- 7、老師,現(xiàn)在用深度學(xué)習(xí)做這種三維視覺(jué)方面的東西怎么樣,我看像SLAM之類的大都是C++做的?QA P4 - 06:48?
- 8、batch([0][0:10].permute(0,2,3,1))/255,您能再解釋一下這句話如何理解嗎??QA P4 - 09:17?
- 9、請(qǐng)問(wèn)老師能不能錄個(gè)小視頻簡(jiǎn)單宏觀介紹一下無(wú)人車用到的技術(shù)和現(xiàn)狀呢??QA P4 - 09:38?
----end----
其他參考:
1、《動(dòng)手學(xué)深度學(xué)習(xí)》,課程安排,https://courses.d2l.ai/zh-v2/assets/pdfs/part-2_7.pdf
2、《動(dòng)手學(xué)深度學(xué)習(xí)》,https://zh-v2.d2l.ai/chapter_computer-vision/bounding-box.html