手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 生活 »日常 » 圖像分割 | 這個神經(jīng)網(wǎng)絡(luò)像“U”一樣處理圖像

圖像分割 | 這個神經(jīng)網(wǎng)絡(luò)像“U”一樣處理圖像

2021-03-07 15:18 作者:圖通道 0人讀過 | 我要投稿

今天圖圖來聊聊圖像處理（分割），并介紹一種特殊的卷積神經(jīng)網(wǎng)絡(luò)U-net。

1 圖像處理的基本流程

圖像處理是指對圖像進(jìn)行分析、加工和處理，使其滿足視覺、心理或其他要求的技術(shù)。目前大多數(shù)的圖像均是以數(shù)字形式存儲，因而圖像處理很多情況下指數(shù)字圖像處理。

在不同類別和領(lǐng)域的圖像信息提取、分析工作中，圖像處理與特征提取的研究是不可或缺的。其中圖像處理過程得到原始圖像的像元，即圖像中經(jīng)過有效分離或增強(qiáng)處理而得到的特征集合；像元圖像經(jīng)過特征識別后得到最終的圖像的信息，包括但不限于以下信息作為后續(xù)研究的數(shù)據(jù)支持：

類別信息
語義信息
特征形態(tài)分布
感興趣的統(tǒng)計學(xué)信息

2 何為圖像分割

圖像分割處理是指以

灰度信息
色彩信息
形態(tài)特征

為依據(jù)，把圖像內(nèi)容劃分成不相交的像素集合，且在同一集合中的像素表現(xiàn)出相似的性質(zhì)和狀態(tài)，而在不同集合間差異盡量大。

當(dāng)一副圖像中包含背景部分（無關(guān)后續(xù)特征識別的區(qū)域）和感興趣區(qū)域（region of interest, ROI）時，圖像分割的關(guān)鍵在于如何對圖像中關(guān)鍵的信息進(jìn)行識別并增強(qiáng)或提取，移除無關(guān)區(qū)域的像素信息從而避免對后續(xù)特征分析結(jié)果的干擾。

3 為何圖像分割

圖像分割問題是圖像分析前的基礎(chǔ)，對圖像特定特征和區(qū)域的分割處理，一定程度簡化了特征提取和語義分析過程，背景區(qū)域等非特征區(qū)域?qū)⒈贿^濾。

因此，圖像分割處理過程的精度也決定了后續(xù)圖像特征識別的精度，被過度分割的殘缺的前景可能導(dǎo)致關(guān)鍵特征的缺失，導(dǎo)致提取的特征信息失效。

4 圖像分割應(yīng)用于何處

圖像分割方法被應(yīng)用于眾多領(lǐng)域，包括

醫(yī)學(xué)圖像
遙感圖像
工業(yè)材料圖像
語義分割等。

醫(yī)學(xué)圖像中傳統(tǒng)的圖像分割都是通過醫(yī)師手動勾畫來實現(xiàn)，往往需要耗費(fèi)工作人員大量的時間精力；遙感圖像中包含大量的森林、水利、海洋農(nóng)業(yè)等資源信息，通過圖像分割可為地形地質(zhì)的探查任務(wù)減輕大量工作量；工業(yè)材料的特殊區(qū)域同樣包含大量需要圖像分割處理的應(yīng)用場景，包括缺陷檢測、材料紋理、裂縫區(qū)域和無損檢測等；語義分割技術(shù)是圖像分割的細(xì)分領(lǐng)域，涉及更加復(fù)雜的場景應(yīng)用，大量用于自動駕駛、無人機(jī)以及可穿戴設(shè)備的圖像識別與理解任務(wù)中，如圖所示。

5 U-Net神經(jīng)網(wǎng)絡(luò)模型

Unet卷積神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用于圖像分割任務(wù)的神經(jīng)網(wǎng)絡(luò)模型，其特點是網(wǎng)絡(luò)結(jié)構(gòu)輕量化、所需訓(xùn)練集小、易于訓(xùn)練，同時兼容實例分割和語義分割等多種任務(wù)同時具有良好性能。

如下所示為以128*128像素圖像為輸入的U-Net神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)，基本操作包括:

卷積
下采樣
剪裁（本網(wǎng)絡(luò)不涉及）
合并
上采樣

由于模型結(jié)構(gòu)類似“U”形結(jié)構(gòu)，故得其名。

A

下采樣過程是一個不斷提煉信息的過程，通過池化操作實現(xiàn)。圖中左圖為原圖，對每個4*4大小的子區(qū)域取其最大值得到特征圖即為最大池化（Max Pooling），取平均值即為平均池化（Average Pooling）。

B

每次向下一層，圖像特征得到一次精煉提取，本樣例中圖像經(jīng)過了四次下采樣操作，第五層的特征圖大小僅為8*8。

U-Net相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更精明的一點在于：傳統(tǒng)網(wǎng)絡(luò)中下采樣的次數(shù)是固定的，且通常基于人工選取該參數(shù)，U-Net網(wǎng)絡(luò)巧妙地避開了這一點，運(yùn)用了多次下采樣得到的特征圖，并能在訓(xùn)練過程中讓網(wǎng)絡(luò)自己學(xué)習(xí)到該使用多大深度的結(jié)構(gòu)層次。

C.

上采樣過程是下采樣的反向操作，該操作與之前的下采樣對應(yīng)，目的是為了在對應(yīng)層中特征圖進(jìn)行合并，實現(xiàn)了網(wǎng)絡(luò)中的網(wǎng)絡(luò)。

D

合并操作是在同層中進(jìn)行的，在同一層的目的是特征圖的采樣深度基本對應(yīng)，從而在合并后能夠直接進(jìn)行后續(xù)卷積操作，該過程對應(yīng)U-Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖中虛線箭頭。

E

網(wǎng)絡(luò)結(jié)構(gòu)具備一些基本的超參數(shù)，這些參數(shù)直接影響著網(wǎng)絡(luò)最終的泛化能力、訓(xùn)練效率、對過擬合的控制等等，而這些參數(shù)的合理區(qū)間往往隨著網(wǎng)絡(luò)結(jié)構(gòu)的不同、實際應(yīng)用場景的不同而發(fā)生變化，并且這種變化是不可預(yù)測的，因此也成為當(dāng)前人工神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的一大難題，也涌現(xiàn)了一批優(yōu)秀的調(diào)參方法和策略。

F

主要超參數(shù)有：

學(xué)習(xí)率（learning rate）：類似于搜索算法中的步長，過大或過小都會造成訓(xùn)練效率的降低

最大訓(xùn)練代數(shù)（maxEpochs）：當(dāng)訓(xùn)練大于該閾值停止網(wǎng)絡(luò)訓(xùn)練
單批圖像數(shù)量（batchSize）：每次迭代訓(xùn)練選取的圖像數(shù)據(jù)集大小
L2正則化系數(shù)（l2reg）：控制L2正則化的強(qiáng)弱程度，從而有效抑制訓(xùn)練過程中的過擬合現(xiàn)象

6 U-Net MATLAB案例

主函數(shù)

運(yùn)行結(jié)果

RGB displays of Train Image and Test Image

注：部分子函數(shù)來自 MATLAB自帶庫函數(shù)，部分圖片來自tensoflow官網(wǎng)

獲取本文中完整代碼，關(guān)注微信公眾號“圖通道”回復(fù)“unet”

標(biāo)簽：