圖像分割 | 這個神經(jīng)網(wǎng)絡(luò)像“U”一樣處理圖像
今天圖圖來聊聊圖像處理(分割),并介紹一種特殊的卷積神經(jīng)網(wǎng)絡(luò)U-net。
1 圖像處理的基本流程

圖像處理是指對圖像進(jìn)行分析、加工和處理,使其滿足視覺、心理或其他要求的技術(shù)。 目前大多數(shù)的圖像均是以數(shù)字形式存儲,因而圖像處理很多情況下指數(shù)字圖像處理。

在不同類別和領(lǐng)域的圖像信息提取、分析工作中,圖像處理與特征提取的研究是不可或缺的。其中圖像處理過程得到原始圖像的像元,即圖像中經(jīng)過有效分離或增強(qiáng)處理而得到的特征集合;像元圖像經(jīng)過特征識別后得到最終的圖像的信息,包括但不限于以下信息作為后續(xù)研究的數(shù)據(jù)支持:
類別信息
語義信息
特征形態(tài)分布
感興趣的統(tǒng)計學(xué)信息
2 何為圖像分割
圖像分割處理是指以
灰度信息
色彩信息
形態(tài)特征
為依據(jù),把圖像內(nèi)容劃分成不相交的像素集合,且在同一集合中的像素表現(xiàn)出相似的性質(zhì)和狀態(tài),而在不同集合間差異盡量大。

當(dāng)一副圖像中包含背景部分(無關(guān)后續(xù)特征識別的區(qū)域)和感興趣區(qū)域(region of interest, ROI)時,圖像分割的關(guān)鍵在于如何對圖像中關(guān)鍵的信息進(jìn)行識別并增強(qiáng)或提取,移除無關(guān)區(qū)域的像素信息從而避免對后續(xù)特征分析結(jié)果的干擾。

3 為何圖像分割
圖像分割問題是圖像分析前的基礎(chǔ),對圖像特定特征和區(qū)域的分割處理,一定程度簡化了特征提取和語義分析過程,背景區(qū)域等非特征區(qū)域?qū)⒈贿^濾。
因此,圖像分割處理過程的精度也決定了后續(xù)圖像特征識別的精度,被過度分割的殘缺的前景可能導(dǎo)致關(guān)鍵特征的缺失,導(dǎo)致提取的特征信息失效。
4 圖像分割應(yīng)用于何處
圖像分割方法被應(yīng)用于眾多領(lǐng)域,包括
醫(yī)學(xué)圖像
遙感圖像
工業(yè)材料圖像
語義分割等。
醫(yī)學(xué)圖像中傳統(tǒng)的圖像分割都是通過醫(yī)師手動勾畫來實現(xiàn),往往需要耗費(fèi)工作人員大量的時間精力;遙感圖像中包含大量的森林、水利、海洋農(nóng)業(yè)等資源信息,通過圖像分割可為地形地質(zhì)的探查任務(wù)減輕大量工作量;工業(yè)材料的特殊區(qū)域同樣包含大量需要圖像分割處理的應(yīng)用場景,包括缺陷檢測、材料紋理、裂縫區(qū)域和無損檢測等;語義分割技術(shù)是圖像分割的細(xì)分領(lǐng)域,涉及更加復(fù)雜的場景應(yīng)用,大量用于自動駕駛、無人機(jī)以及可穿戴設(shè)備的圖像識別與理解任務(wù)中,如圖所示。

5 U-Net神經(jīng)網(wǎng)絡(luò)模型
Unet卷積神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用于圖像分割任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,其特點是網(wǎng)絡(luò)結(jié)構(gòu)輕量化、所需訓(xùn)練集小、易于訓(xùn)練,同時兼容實例分割和語義分割等多種任務(wù)同時具有良好性能。
如下所示為以128*128像素圖像為輸入的U-Net神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu),基本操作包括:
卷積
下采樣
剪裁(本網(wǎng)絡(luò)不涉及)
合并
上采樣
由于模型結(jié)構(gòu)類似“U”形結(jié)構(gòu),故得其名。

A
下采樣過程是一個不斷提煉信息的過程,通過池化操作實現(xiàn)。圖中左圖為原圖,對每個4*4大小的子區(qū)域取其最大值得到特征圖即為最大池化(Max Pooling),取平均值即為平均池化(Average Pooling)。

B
每次向下一層,圖像特征得到一次精煉提取,本樣例中圖像經(jīng)過了四次下采樣操作,第五層的特征圖大小僅為8*8。
U-Net相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)更精明的一點在于:傳統(tǒng)網(wǎng)絡(luò)中下采樣的次數(shù)是固定的,且通常基于人工選取該參數(shù),U-Net網(wǎng)絡(luò)巧妙地避開了這一點,運(yùn)用了多次下采樣得到的特征圖,并能在訓(xùn)練過程中讓網(wǎng)絡(luò)自己學(xué)習(xí)到該使用多大深度的結(jié)構(gòu)層次。
C.
上采樣過程是下采樣的反向操作,該操作與之前的下采樣對應(yīng),目的是為了在對應(yīng)層中特征圖進(jìn)行合并,實現(xiàn)了網(wǎng)絡(luò)中的網(wǎng)絡(luò)。
D
合并操作是在同層中進(jìn)行的,在同一層的目的是特征圖的采樣深度基本對應(yīng),從而在合并后能夠直接進(jìn)行后續(xù)卷積操作,該過程對應(yīng)U-Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖中虛線箭頭。

E
網(wǎng)絡(luò)結(jié)構(gòu)具備一些基本的超參數(shù),這些參數(shù)直接影響著網(wǎng)絡(luò)最終的泛化能力、訓(xùn)練效率、對過擬合的控制等等,而這些參數(shù)的合理區(qū)間往往隨著網(wǎng)絡(luò)結(jié)構(gòu)的不同、實際應(yīng)用場景的不同而發(fā)生變化,并且這種變化是不可預(yù)測的,因此也成為當(dāng)前人工神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的一大難題,也涌現(xiàn)了一批優(yōu)秀的調(diào)參方法和策略。
F
主要超參數(shù)有:
學(xué)習(xí)率(learning rate):類似于搜索算法中的步長,過大或過小都會造成訓(xùn)練效率的降低

最大訓(xùn)練代數(shù)(maxEpochs):當(dāng)訓(xùn)練大于該閾值停止網(wǎng)絡(luò)訓(xùn)練
單批圖像數(shù)量(batchSize):每次迭代訓(xùn)練選取的圖像數(shù)據(jù)集大小
L2正則化系數(shù)(l2reg):控制L2正則化的強(qiáng)弱程度,從而有效抑制訓(xùn)練過程中的過擬合現(xiàn)象
6 U-Net MATLAB案例
主函數(shù)
運(yùn)行結(jié)果



注:部分子函數(shù)來自 MATLAB自帶庫函數(shù),部分圖片來自tensoflow官網(wǎng)
獲取本文中完整代碼,關(guān)注微信公眾號“圖通道”回復(fù)“unet”