詳解高分辨率缺陷異常定位新范式:PyramidFlow(CVPR 23)
來源:投稿 作者:橡皮
編輯:學(xué)姐

論文鏈接:https://arxiv.org/abs/2303.02595
論文代碼:暫未發(fā)布
0. 背景
由于復(fù)雜的工業(yè)制造過程中的不可控因素,不可避免地會給產(chǎn)品帶來不可預(yù)見的缺陷。由于人類視覺系統(tǒng)具有感知異常的固有能力[25],質(zhì)量控制長期依賴人工檢查。
然而,大規(guī)模圖像和微小缺陷對人工檢測來說是一項挑戰(zhàn),因此越來越多的研究集中在自動化機器視覺檢測上。在所有方法中,有監(jiān)督的深度學(xué)習(xí)取得了巨大的成功。它依靠帶注釋的數(shù)據(jù)集來學(xué)習(xí)判別特征,有效地克服了手工制作的缺點。然而,由于負樣本不足、對標簽的高要求以及缺乏先驗知識,這些基于監(jiān)督學(xué)習(xí)的方法在識別實踐中可能會遇到看不見的缺陷。

最近,無監(jiān)督方法已應(yīng)用于缺陷檢測,如圖 1(a,b)所示。基于重建的方法是最著名的,它將重建圖像作為模板,然后在圖像空間中應(yīng)用顯式對比度以實現(xiàn)高分辨率定位。然而,使用解碼器重建是一個不適定的逆問題,很難重建復(fù)雜的細節(jié)。為了克服上述限制,基于異常的方法 利用紋理感知預(yù)訓(xùn)練模型實現(xiàn)了高圖像級性能,這也損害了像素級視覺性能。最有前途的方法之一是卷積歸一化流,它進一步從預(yù)訓(xùn)練特征對概率分布進行建模,從而獲得更高的性能。
1.本文主要貢獻
提出了一種基于潛在模板的缺陷對比定位范例。與基于重建的方法類似,在潛在空間中執(zhí)行對比定位,這避免了病態(tài)并有效地減少了類內(nèi)方差。
提出 PyramidFlow,它包括用于多尺度融合和映射的可逆金字塔和金字塔耦合塊,可實現(xiàn)高分辨率缺陷定位。此外,還提出了體積歸一化以提高泛化能力。
進行了全面的實驗,以證明提出的先進方法優(yōu)于不使用外部先驗的同類算法,甚至在復(fù)雜場景中實現(xiàn)了最先進的性能。
2.網(wǎng)絡(luò)介紹
算法由訓(xùn)練和評估兩個過程組成,如圖 2 所示。訓(xùn)練過程類似于孿生網(wǎng)絡(luò),通過最小化圖像對內(nèi)的頻率差異來優(yōu)化模型。對于評估過程,通過在總訓(xùn)練數(shù)據(jù)集上進行推理獲得潛在模板,然后應(yīng)用潛在對比和金字塔合成來獲得異常定位圖。詳細信息展示在以下部分中。

3.1 方法細節(jié):可逆金字塔范式
缺陷圖像包含各種頻率成分。通常,低頻分量代表慢梯度背景,而高頻分量對應(yīng)于細節(jié)或缺陷。為了解耦頻率分量并獨立識別每個頻率分量,我們提出了可逆金字塔,它可以對單個特征進行多尺度分解和組合。為了促進特征學(xué)習(xí),以前的工作應(yīng)用預(yù)訓(xùn)練的編碼器來提取特征。盡管具有外部先驗的預(yù)訓(xùn)練方法有助于提高性能,但為了在我們的初步研究中充分探索我們的方法的優(yōu)勢,讓我們考慮一個沒有任何預(yù)訓(xùn)練模型的基線。
3.2 方法細節(jié):金字塔耦合模塊
可逆模塊。 可逆模塊是實現(xiàn)可逆神經(jīng)網(wǎng)絡(luò)的基本要素。本文介紹的可逆模塊有可逆卷積、可逆金字塔和仿射耦合塊。仿射耦合塊是構(gòu)成歸一化流的基本模塊。它基于可逆非線性映射的特征拆分,具有易于追蹤的雅可比行列式和逆運算。

如圖 3(a) 所示,傳統(tǒng)的仿射耦合塊沿通道維度拆分單個特征,其中一個子特征保持其身份,而另一個由它控制執(zhí)行仿射變換。表示分割后的特征為x0,x1,其輸出為y0,y1,則相應(yīng)的變換可以描述為:

其中s(·)、t(·)是仿射參數(shù),可以通過零初始化的卷積神經(jīng)網(wǎng)絡(luò)進行估計。對于式(3),有一個顯式逆變換:

將s(·)中位置i、j的元素記為si,j(·)。由于變換(3)的雅可比矩陣是三角矩陣,其對數(shù)行列式可估計為:

方程(3)至(5)是所有仿射耦合塊的基礎(chǔ)。然而,圖 3(a)中所示的耦合塊的一部分保持相同。因此,在 NICE [8] 中提出了反向級聯(lián)架構(gòu),使得兩個部分都進行了轉(zhuǎn)換,如圖 3(b)所示。以前的工作通過迭代應(yīng)用圖 3(b)所示的結(jié)構(gòu)來構(gòu)建整體可逆歸一化流。
實現(xiàn)。我們的方法沿尺度分解單個特征,并基于等式(3)至(5)實現(xiàn)多尺度特征融合。在我們的實現(xiàn)中,使用具有兩個線性層的卷積神經(jīng)網(wǎng)絡(luò)估計多尺度仿射參數(shù) s(·)、t(·),其中應(yīng)用雙線性插值來匹配目標形狀。
此外,我們采用可逆 1x1 卷積 [11] 進行特征內(nèi)的特征融合。具體地,將可逆1×1卷積對應(yīng)的滿秩矩陣記為A,可以用PLU分解??

其中 P 是凍結(jié)置換矩陣,L 是具有單位對角元素的下三角矩陣,U 是具有零對角元素的上三角矩陣,exp(si) 是矩陣 A 的第 i 個特征值,它始終保持非負性.矩陣 A 在優(yōu)化過程中總是可逆的,那么它的對數(shù)雅可比行列式可以估計為:

總之,方程(3)至(7)在數(shù)學(xué)上描述了所提出的金字塔耦合塊,如圖3(c)所示。首先,執(zhí)行多尺度特征融合(3-5),然后對隨機通道應(yīng)用線性融合(6-7)。此外,我們提出了如圖 3(d)所示的雙耦合塊,它等效于圖 3(c)中耦合塊的反向并聯(lián)。雙耦合塊在我們的實現(xiàn)中被重新參數(shù)化,其仿射參數(shù) s(·)、t(·) 是根據(jù)級聯(lián)特征估計的。
體積歸一化。 假設(shè)可逆變換 f : x → z 將變量 x 映射到潛在變量 z。以前的工作假設(shè)潛在變量服從基本概率分布(例如高斯分布),然后根據(jù)以下等式估計樣本概率密度:

然而,這種方法依賴于基本分布假設(shè),忽略了概率密度變換中隱式先驗對泛化的影響。當將此類方法應(yīng)用于異常檢測時,訓(xùn)練目標與異常評估之間的不一致會導(dǎo)致域差距。

類似于深度學(xué)習(xí)中的批量歸一化或?qū)嵗龤w一化,所提出的體積歸一化將用于體積保持映射,如圖 4 所示。特別是,對于仿射耦合塊,參數(shù) s(·) 從其均值中減去執(zhí)行公式(3) 之前的值;對于可逆卷積,在根據(jù)公式(6)計算矩陣 A 之前,將參數(shù) si 從其平均值中減去。根據(jù)統(tǒng)計維度,我們提出了空間體積歸一化(SVN)和通道體積歸一化(CVN)。 SVN 沿空間維度進行均值統(tǒng)計,而 CVN 沿通道維度進行。
3.3 方法細節(jié):金字塔歸一化流
結(jié)構(gòu)。 我們的 PyramidFlow 可以通過將圖 3(c,d) 的金字塔耦合塊沿深度 D-1 次和層 L-1 次堆疊獲得,如圖 3(e) 所示。具體來說,PyramidFlow 使用矩陣 W 將圖像 I 提取為特征 x,然后根據(jù)等式(1)執(zhí)行金字塔分解。方程(3)至(7)中描述的金字塔耦合塊按圖3(e)描述的順序計算得到潛在的金字塔特征zd, d = 0, 1, · · · , L ? 1, 即最后根據(jù)方程(2)組合成潛在變量。
損失函數(shù)。 在體積歸一化的情況下,損失函數(shù)不包括概率密度系數(shù)。此外,半正交矩陣 W 的對數(shù)雅可比行列式與樣本無關(guān),因此在訓(xùn)練過程中可以忽略其影響。
假設(shè)一個訓(xùn)練批次有 2 個正態(tài)樣本,它的潛在變量是 zd(i), zd(j)。先前的研究使用空間差異訓(xùn)練神經(jīng)網(wǎng)絡(luò)。然而,它忽略了高頻缺陷的影響。為了解決上述缺點,我們提出了以下傅立葉損失函:

其中 F 是圖像的快速傅里葉變換。使用 Eq(9) 訓(xùn)練歸一化流使模型能夠?qū)W⒂诟哳l,從而實現(xiàn)更快的收斂。我們將在第 4.3 節(jié)中討論這個技巧。
缺陷定位。 以前的研究通常基于類別獨立的零模板來定位具有明顯差異的缺陷。在我們的方法中,缺陷被建模為相對于模板的異常偏差。然后,潛在金字塔 zd 的異常定義為,其中 ˉzd 是潛在金字塔的平均值。最后,總異常可以估計:

式(10)表明總異常是不同尺度異常的組合,這與Rudolph等提出的經(jīng)驗方法一致。
圖像模板估計。 圖像模板是正常樣本的原型,是潛在模板的可視化。我們的完全歸一化流基于 1×1 卷積而不是預(yù)訓(xùn)練編碼器,保持端到端和近可逆性,因此可以使用方程(2)和方程(4)從潛在均值中檢索流的輸入 Xtemp,然后求解圖像模板 Itemp 的最小二乘問題WItemp = xtemp。
4.實驗結(jié)果
在本章中,我們對 MVTec 異常檢測數(shù)據(jù)集 (MVTecAD) 和 BeanTech 異常檢測數(shù)據(jù)集 ?(BTAD) 進行無監(jiān)督異常定位實驗。 MVTecAD 包含 15 類工業(yè)缺陷圖像,其中五類是紋理圖像,另外十類是物體圖像。對象圖像包含三類(網(wǎng)格、金屬螺母、螺釘)沒有粗配準和一類(榛子)沒有精細配準.
4.1復(fù)雜度分析
基于等式的歸一化流程。 (3) 和 (4) 在計算上是可逆的,這表明所有階段只需要一份變量副本。此功能減少了從線性到恒定復(fù)雜度的反向傳播過程中的內(nèi)存占用。我們基于固定的金字塔層數(shù) L = 8,圖像分辨率為 256 × 256,通道 C = 24 分析了上述特征,然后改變堆疊層數(shù) D 來探索內(nèi)存使用和模型參數(shù)的趨勢。前向和節(jié)省內(nèi)存的反向傳播是基于自主開發(fā)的基于 PyTorch 的 [17] 框架 autoFlow 實現(xiàn)的。在穩(wěn)態(tài)訓(xùn)練期間記錄所有指標,然后繪制為條形圖和折線圖,如圖 5 所示。

4.2體積歸一化研究


頂行顯示 CVN 優(yōu)級對象圖像,底行顯示 SVN 優(yōu)級紋理圖像。
4.3消融實驗





關(guān)注“學(xué)姐帶你玩AI”公眾號,回復(fù)“CVPR”
免費領(lǐng)取500+篇頂會必讀論文!
CVPR近5年獲獎?wù)撐囊舱砹?!看這里:CVPR 近5年最佳論文全盤點?。ê?023最新)