2.structure of knowledge for semantic segmentation
2023年3月27日08:36:23
DeepLab系列(DeepLabv1、DeepLabv2、DeepLabv3和DeepLabv3+) 2014,
FCN 2015,
unet 2015,
SegNet 2015,
GCN 2016,
ENet 2016,
-PSPNet(Pyramid Scene Parsing Network)2017,
-Mask R-CNN 2017,
DFN 2018,
BiSeNet 2018,
RedNet 2018,
RDFNet 2020 ,
DFANet 2021,
DeepLab 2014
DeepLabv1 2014, DeepLabv2 2016, DeepLabv3 2017, DeepLabv3+ 2018,
解決了空間上下文信息不足的問題,
v1引入空洞卷積來增加感受野,
v2結(jié)合了空洞卷積和多尺度金字塔來進(jìn)一步增加感受野大小和多尺度特征表示能力,
v3和v3+引入了可變性卷積和全局上下文信息進(jìn)一步提高語義分割的準(zhǔn)確性;
缺陷是計(jì)算量大、訓(xùn)練和調(diào)參難度較高。
FCN 2015
解決了傳統(tǒng)圖像分割無法處理不同大小的輸入圖像的問題,
引入了全卷積網(wǎng)絡(luò)將圖像轉(zhuǎn)換為密集預(yù)測的像素標(biāo)簽;
處理多類別分割任務(wù)的表現(xiàn)相對較差,
由于網(wǎng)絡(luò)缺乏跨層信息的傳遞,難以對細(xì)節(jié)進(jìn)行準(zhǔn)確的分割,
使用簡單的反卷積層進(jìn)行上采樣,所以對細(xì)節(jié)和邊緣等細(xì)微信息的恢復(fù)不夠精細(xì)。
unet 2015
解決了傳統(tǒng)圖像分割方法無法處理小目標(biāo)和不規(guī)則形狀的問題,
引入了U形網(wǎng)絡(luò)結(jié)構(gòu)并將特征圖進(jìn)行跳躍連接;
網(wǎng)絡(luò)結(jié)構(gòu)比較簡單,難以處理較復(fù)雜的場景,
對細(xì)節(jié)的把握能力也有一定局限性。
SegNet 2015
解決了全卷積網(wǎng)絡(luò)存在的模糊分割的問題,
引入了最大池化索引進(jìn)行上采樣,提高了分割的準(zhǔn)確性;
網(wǎng)絡(luò)結(jié)構(gòu)簡單,難以處理復(fù)雜場景,對細(xì)節(jié)把握能力較弱。
GCN 2016
解決了全卷積網(wǎng)絡(luò)難以處理稀疏圖像的問題,
引入了全局上下文信息,提高了分割的準(zhǔn)確性;
對分辨率較高的圖像和復(fù)雜場景處理效果較差,且容易過擬合。
ENet 2016
輕量級模型,使用分支并行結(jié)構(gòu)和深度可分離卷積,以減少模型的參數(shù)數(shù)量和計(jì)算復(fù)雜度;
由于模型解構(gòu)的簡單化,語義分割性能相對較弱。
PSPNet 2017
解決了全卷積網(wǎng)絡(luò)難以獲取全局信息的問題,
引入了金字塔池化機(jī)制,從不同尺度上提取全局特征;
由于金字塔池化機(jī)制,導(dǎo)致計(jì)算量和內(nèi)存占用較大,處理大規(guī)模高分辨率圖像時(shí)較為困難。
Mask R-CNN 2017
解決了目標(biāo)檢測和語義分割之間的關(guān)聯(lián)問題,
引入了區(qū)域提取網(wǎng)絡(luò)和融合特征金字塔等技術(shù),
將目標(biāo)檢測和實(shí)例分割結(jié)合,能夠能使輸出目標(biāo)的類別、位置和掩碼信息,
是一種高效、準(zhǔn)確的語義分割方法;
網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要較長的訓(xùn)練時(shí)間和較大的計(jì)算資源。
DFN 2018,
基于深度特征融合,
將多個(gè)分辨率的特征圖融合起來,以提高準(zhǔn)確性和穩(wěn)定性;
特征融合模塊會(huì)增加計(jì)算復(fù)雜度,
同時(shí)需要對模型進(jìn)行精細(xì)的調(diào)參。
BiSeNet 2018
基于分割網(wǎng)絡(luò)級聯(lián),使用級聯(lián)解構(gòu)分別處理全局和局部特征,
同時(shí)使用注意力機(jī)制提高分割的準(zhǔn)確性;
處理高分辨率圖像出現(xiàn)較大的計(jì)算誤差。
RedNet 2018
基于殘差網(wǎng)絡(luò),采用了紅色殘差塊(red block)來提高特征表示能力和分割準(zhǔn)確性;
但需要更多的計(jì)算資源和參數(shù)量。
RDFNet 2020
基于循環(huán)解碼和特征融合,
采用了循環(huán)解碼網(wǎng)絡(luò)和注意力機(jī)制來融合多尺度特征,
并引入了一個(gè)特征融合模塊來提高分割精度;
雖然可以更好地處理復(fù)雜的場景和背景,但需要更長的訓(xùn)練時(shí)間和更大的計(jì)算資源。
DFANet 2021
基于雙重注意力機(jī)制,采用了通道和空間注意力機(jī)制來增強(qiáng)特征表示能力,
并引入了一個(gè)反卷積網(wǎng)絡(luò)來提高分割精度;
雖然可以更好地處理物體之間的遮擋和重疊,但計(jì)算量相對較高。?