語義分割網(wǎng)絡(luò)DeepLabV3在Cityscapes數(shù)據(jù)集上的探索(上)

論文名稱:Rethinking Atrous Convolution for Semantic Image Segmentation1.重新討論了空洞卷積的使用,使得在串行模塊和空間金字塔池化的框架下,能夠獲取更大的感受野從而獲取多尺度信息;2.改進(jìn)了ASPP模塊:由不同采樣率的空洞卷積和BN層組成,嘗試以串行或并行的方式布局模塊;3.討論了一個重要問題:使用大采樣率的3×3的空洞卷積,因為圖像邊界響應(yīng)無法捕捉遠(yuǎn)距離信息(小目標(biāo)),會退化為1×1的卷積, 建議將圖像級特征融合到ASPP模塊中。
論文下載地址:https://arxiv.org/abs/1706.05587

參考代碼:https://github.com/fregu856/deeplabv3
參考文章:
https://blog.csdn.net/qq_37541097/article/details/121797301
https://blog.csdn.net/qq_35759272/article/details/123700919
https://blog.csdn.net/qq_43492938/article/details/111183906
1.Cascaded modules
圖1(a)未使用空洞卷積,所以圖像分辨率一直縮?。ㄐ畔⒌膩G失非常嚴(yán)重);圖1(b)?不改變分辨率以及感受野,其中Block1-4是原始ResNet網(wǎng)絡(luò)中的層結(jié)構(gòu),但在Block4中將第一個殘差結(jié)構(gòu)里的3x3卷積層以及捷徑分支上的1x1卷積層步距stride由2改成了1(即不再進(jìn)行下采樣),并且所有殘差結(jié)構(gòu)里3x3的普通卷積層都換成了空洞卷積層。Block5,Block6和Block7是額外新增的層結(jié)構(gòu),其結(jié)構(gòu)與Block4一致,即由三個殘差結(jié)構(gòu)構(gòu)成。

2.Atrous Spatial Pyramid Pooling
ASPP可以以不同的rate有效地捕捉多尺度信息,但是隨著Block的深入與空洞卷積rate的增大,會導(dǎo)致卷積退化為1x1。例如,對于尺寸為65x65的特征圖,如果將3x3、rate=30的空洞卷積核應(yīng)用于它,生成的特征圖會僅有中心點,捕獲不到全局信息。為解決此問題,添加了Image-Level 圖像級別的特征。具體來講,將輸入特征圖的每一個通道做全局平均池化,再通過256個1x1的卷積核構(gòu)成新的大小為(1, 1, 256)的特征圖,再通過雙線性插值得到需要的分辨率的圖(如(b)所示),這么做可以彌補當(dāng)rate太大的時候丟失的信息。(a)的部分包括一個1x1和rate分別為6、12、18的3x3的空洞卷積。將(a)和(b)進(jìn)行concat,然后再通過256個1x1的卷積核得到新的特征圖,上采樣后進(jìn)行損失的計算。

DeepLab V3中的ASPP結(jié)構(gòu)有5個并行分支(圖3中心部分),分別是一個1x1的卷積層,三個3x3的膨脹卷積層,以及一個全局平均池化層(為了增加全局上下文信息global context information),然后通過Concat的方式將這5個分支的輸出進(jìn)行拼接,最后再通過一個1x1的卷積層進(jìn)一步融合信息。

Part 1 數(shù)據(jù)預(yù)處理
1.將cityscapes數(shù)據(jù)集中g(shù)tFine文件中的labelIds.png中的id轉(zhuǎn)換為trainId,并將轉(zhuǎn)換后的文件放置到cityscapes_meta_ path中
2.計算類別權(quán)重
3.圖像增強
Part 2 構(gòu)建網(wǎng)絡(luò)
本文中的網(wǎng)絡(luò)流程與圖3類似,但部分不同。輸入圖像后,首先經(jīng)過無fully connected layer, avg pool, layer 4與layer 5的resnet18,再經(jīng)過4個類似圖3中的BottleNeck結(jié)構(gòu)(本文中的BottleNeck為2個BN后的3*3卷積與1個BN后的1*1卷積結(jié)果相加),經(jīng)過ASPP層后upsample輸出。
ASPP
Deeplabv3將上述結(jié)構(gòu)融合
·未完待續(xù)·
