散文網(wǎng) » 筆記 »全部筆記 » 48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】

2023-08-11 16:38 作者:月蕪SA 0人讀過 | 我要投稿

全連接卷積神經(jīng)網(wǎng)絡(luò)：神經(jīng)網(wǎng)絡(luò)處理語義分割問題的奠基性工作，目前已不太常用。

了解一下全卷積網(wǎng)絡(luò)模型最基本的設(shè)計(jì)。如?下圖所示，全卷積網(wǎng)絡(luò)先使用卷積神經(jīng)網(wǎng)絡(luò)抽取圖像特征，然后通過1×1卷積層將通道數(shù)變換為類別個(gè)數(shù)，最后通過轉(zhuǎn)置卷積層將特征圖的高和寬變換為輸入圖像的尺寸。因此，模型輸出與輸入圖像的高和寬相同，且最終輸出通道包含了該空間位置像素的類別預(yù)測。

代碼實(shí)現(xiàn)

%matplotlib inline
import torch
import torchvision
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

下面，我們使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-18模型來提取圖像特征，并將該網(wǎng)絡(luò)記為pretrained_net。 ResNet-18模型的最后幾層包括全局平均匯聚層和全連接層，然而全卷積網(wǎng)絡(luò)中不需要它們。

pretrained_net = torchvision.models.resnet18(pretrained=True)
list(pretrained_net.children())[-3:]

[Sequential(
   (0): BasicBlock(
     (conv1): Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
     (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (relu): ReLU(inplace=True)
     (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (downsample): Sequential(
       (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
       (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     )
   )
   (1): BasicBlock(
     (conv1): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
     (relu): ReLU(inplace=True)
     (conv2): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
     (bn2): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
   )
 ),
 AdaptiveAvgPool2d(output_size=(1, 1)),
 Linear(in_features=512, out_features=1000, bias=True)]

觀察最后一行的輸出層，輸入通道數(shù)為512，輸出通道數(shù)為1000（imagenet上的類別數(shù)）

倒數(shù)第二層為全局平均池化層，將高寬7*7的數(shù)據(jù)轉(zhuǎn)化為1*1，通道數(shù)不變

接下來，我們創(chuàng)建一個(gè)全卷積網(wǎng)絡(luò)net。它復(fù)制了ResNet-18中大部分的預(yù)訓(xùn)練層，除了最后的全局平均匯聚層和最接近輸出的全連接層。

net = nn.Sequential(*list(pretrained_net.children())[:-2])

給定高度為320和寬度為480的輸入，net的前向傳播將輸入的高和寬減小至原來的1/32

，即10和15。

X = torch.rand(size=(1, 3, 320, 480))
net(X).shape

torch.Size([1, 512, 10, 15])

接下來使用1×1

卷積層將輸出通道數(shù)轉(zhuǎn)換為Pascal VOC2012數(shù)據(jù)集的類數(shù)（21類）。最后需要將特征圖的高度和寬度增加32倍（設(shè)置stride=32），從而將其變回輸入圖像的高和寬。

num_classes = 21
net.add_module('final_conv', nn.Conv2d(512, num_classes, kernel_size=1))
net.add_module('transpose_conv', nn.ConvTranspose2d(num_classes, num_classes,
                                    kernel_size=64, padding=16, stride=32))

初始化轉(zhuǎn)置卷積層

在圖像處理中，我們有時(shí)需要將圖像放大，即上采樣（upsampling）。?雙線性插值（bilinear interpolation）是常用的上采樣方法之一，它也經(jīng)常用于初始化轉(zhuǎn)置卷積層。

雙線性插值的上采樣可以通過轉(zhuǎn)置卷積層實(shí)現(xiàn)，內(nèi)核由以下bilinear_kernel函數(shù)構(gòu)造。限于篇幅，我們只給出bilinear_kernel函數(shù)的實(shí)現(xiàn)，不討論算法的原理。

def bilinear_kernel(in_channels, out_channels, kernel_size):
    factor = (kernel_size + 1) // 2
    if kernel_size % 2 == 1:
        center = factor - 1
    else:
        center = factor - 0.5
    og = (torch.arange(kernel_size).reshape(-1, 1),
          torch.arange(kernel_size).reshape(1, -1))
    filt = (1 - torch.abs(og[0] - center) / factor) * \
           (1 - torch.abs(og[1] - center) / factor)
    weight = torch.zeros((in_channels, out_channels,
                          kernel_size, kernel_size))
    weight[range(in_channels), range(out_channels), :, :] = filt
    return weight

讓我們用雙線性插值的上采樣實(shí)驗(yàn)它由轉(zhuǎn)置卷積層實(shí)現(xiàn)。我們構(gòu)造一個(gè)將輸入的高和寬放大2倍的轉(zhuǎn)置卷積層，并將其卷積核用bilinear_kernel函數(shù)初始化。

conv_trans = nn.ConvTranspose2d(3, 3, kernel_size=4, padding=1, stride=2,
                                bias=False)
conv_trans.weight.data.copy_(bilinear_kernel(3, 3, 4));

讀取圖像X，將上采樣的結(jié)果記作Y。為了打印圖像，我們需要調(diào)整通道維的位置。

img = torchvision.transforms.ToTensor()(d2l.Image.open('../img/catdog.jpg'))
X = img.unsqueeze(0)
Y = conv_trans(X)
out_img = Y[0].permute(1, 2, 0).detach()

可以看到，轉(zhuǎn)置卷積層將圖像的高和寬分別放大了2倍。除了坐標(biāo)刻度不同，雙線性插值放大的圖像和在?13.3節(jié)中打印出的原圖看上去沒什么兩樣。

d2l.set_figsize()
print('input image shape:', img.permute(1, 2, 0).shape)
d2l.plt.imshow(img.permute(1, 2, 0));
print('output image shape:', out_img.shape)
d2l.plt.imshow(out_img);

input image shape: torch.Size([561, 728, 3])
output image shape: torch.Size([1122, 1456, 3])

全卷積網(wǎng)絡(luò)用雙線性插值的上采樣初始化轉(zhuǎn)置卷積層。對于1×1卷積層，我們使用Xavier初始化參數(shù)。

W = bilinear_kernel(num_classes, num_classes, 64)
net.transpose_conv.weight.data.copy_(W);

讀取數(shù)據(jù)集

我們用?13.9節(jié)中介紹的語義分割讀取數(shù)據(jù)集。指定隨機(jī)裁剪的輸出圖像的形狀為320×480

：高和寬都可以被32整除。

batch_size, crop_size = 32, (320, 480)
train_iter, test_iter = d2l.load_data_voc(batch_size, crop_size)

read 1114 examples
read 1078 examples

現(xiàn)在我們可以訓(xùn)練全卷積網(wǎng)絡(luò)了。這里的損失函數(shù)和準(zhǔn)確率計(jì)算與圖像分類中的并沒有本質(zhì)上的不同，因?yàn)槲覀兪褂棉D(zhuǎn)置卷積層的通道來預(yù)測像素的類別，所以需要在損失計(jì)算中指定通道維。此外，模型基于每個(gè)像素的預(yù)測類別是否正確來計(jì)算準(zhǔn)確率。

def loss(inputs, targets):
    return F.cross_entropy(inputs, targets, reduction='none').mean(1).mean(1)

num_epochs, lr, wd, devices = 5, 0.001, 1e-3, d2l.try_all_gpus()
trainer = torch.optim.SGD(net.parameters(), lr=lr, weight_decay=wd)
d2l.train_ch13(net, train_iter, test_iter, loss, trainer, num_epochs, devices)

loss 0.443, train acc 0.863, test acc 0.852
265.6 examples/sec on [device(type='cuda', index=0), device(type='cuda', index=1)]

預(yù)測時(shí)，我們需要將輸入圖像在各個(gè)通道做標(biāo)準(zhǔn)化，并轉(zhuǎn)成卷積神經(jīng)網(wǎng)絡(luò)所需要的四維輸入格式。

def predict(img):
    X = test_iter.dataset.normalize_image(img).unsqueeze(0)
    pred = net(X.to(devices[0])).argmax(dim=1)
    return pred.reshape(pred.shape[1], pred.shape[2])

為了可視化預(yù)測的類別給每個(gè)像素，我們將預(yù)測類別映射回它們在數(shù)據(jù)集中的標(biāo)注顏色。

def label2image(pred):
    colormap = torch.tensor(d2l.VOC_COLORMAP, device=devices[0])
    X = pred.long()
    return colormap[X, :]

測試數(shù)據(jù)集中的圖像大小和形狀各異。由于模型使用了步幅為32的轉(zhuǎn)置卷積層，因此當(dāng)輸入圖像的高或?qū)挓o法被32整除時(shí)，轉(zhuǎn)置卷積層輸出的高或?qū)挄?huì)與輸入圖像的尺寸有偏差。為了解決這個(gè)問題，我們可以在圖像中截取多塊高和寬為32的整數(shù)倍的矩形區(qū)域，并分別對這些區(qū)域中的像素做前向傳播。請注意，這些區(qū)域的并集需要完整覆蓋輸入圖像。當(dāng)一個(gè)像素被多個(gè)區(qū)域所覆蓋時(shí)，它在不同區(qū)域前向傳播中轉(zhuǎn)置卷積層輸出的平均值可以作為softmax運(yùn)算的輸入，從而預(yù)測類別。

為簡單起見，我們只讀取幾張較大的測試圖像，并從圖像的左上角開始截取形狀為320×480的區(qū)域用于預(yù)測。對于這些測試圖像，我們逐一打印它們截取的區(qū)域，再打印預(yù)測結(jié)果，最后打印標(biāo)注的類別。

voc_dir = d2l.download_extract('voc2012', 'VOCdevkit/VOC2012')
test_images, test_labels = d2l.read_voc_images(voc_dir, False)
n, imgs = 4, []
for i in range(n):
    crop_rect = (0, 0, 320, 480)
    X = torchvision.transforms.functional.crop(test_images[i], *crop_rect)
    pred = label2image(predict(X))
    imgs += [X.permute(1,2,0), pred.cpu(),
             torchvision.transforms.functional.crop(
                 test_labels[i], *crop_rect).permute(1,2,0)]
d2l.show_images(imgs[::3] + imgs[1::3] + imgs[2::3], 3, n, scale=2);

圖中可以看出，目標(biāo)識(shí)別主體類別大致正確（物體對應(yīng)顏色標(biāo)對了），但是目標(biāo)邊緣（形狀）還存在著較大誤差。

知識(shí)補(bǔ)充：

只考慮精度不考慮速度的話推薦使用rcnn

出于對訓(xùn)練速度的考慮，本節(jié)網(wǎng)絡(luò)中的1*1卷積層，將7*7*512的數(shù)據(jù)結(jié)構(gòu)直接壓縮到了7*7*class_num，造成了較大的信息損失，若要對預(yù)測效果進(jìn)行進(jìn)一步優(yōu)化的話可以調(diào)節(jié)這一層

標(biāo)簽：

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】

本文作者的其他文章

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

48 全連接卷積神經(jīng)網(wǎng)絡(luò) FCN【動(dòng)手學(xué)深度學(xué)習(xí)v2】的評論 (共條)