CVPR23 | DeSTSeg:異常檢測最新改進方法
來源:投稿 作者:橡皮
編輯:學(xué)姐

論文鏈接:https://arxiv.org/pdf/2211.11317
0.背景:
工業(yè)異常檢測旨在發(fā)現(xiàn)產(chǎn)品的異常區(qū)域,在工業(yè)質(zhì)量檢測中發(fā)揮著重要作用。在工業(yè)場景中,很容易獲得大量的正常示例,但缺陷示例很少。
大多數(shù)現(xiàn)有的工業(yè)異常檢測方法都是基于2D圖像的。然而,在工業(yè)產(chǎn)品的質(zhì)量檢查中,人類檢查員利用3D形狀和顏色特征來確定它是否是缺陷產(chǎn)品,其中3D形狀信息對于判斷是重要和必要的。
無監(jiān)督異常檢測的核心思想是找出異常和正態(tài)表示之間的區(qū)別。目前2D工業(yè)異常檢測方法可分為兩類:
(1)基于重構(gòu)的方法。圖像重建任務(wù)被廣泛用于異常檢測方法中,以學(xué)習(xí)正常表示?;谥亟ǖ姆椒▽τ趩文B(tài)輸入(2D圖像或3D點云)很容易實現(xiàn)。但對于多模態(tài)輸入,很難找到重建目標。
(2) 基于預(yù)訓(xùn)練特征提取器的方法。利用特征提取器的直觀方法是將提取的特征映射到正態(tài)分布,并將分布外的特征作為異常。
1.主要貢獻:
提出了一種去噪學(xué)生編碼器-解碼器,它經(jīng)過訓(xùn)練,可以從具有異常輸入的教師那里顯式地生成不同的特征表示。
使用分割網(wǎng)絡(luò)來自適應(yīng)地融合多級特征相似性,以取代經(jīng)驗推理方法。
在基準數(shù)據(jù)集上進行了廣泛的實驗,以證明我們的方法對各種任務(wù)的有效性。
2.網(wǎng)絡(luò)介紹: DeSTSeg
在訓(xùn)練期間生成并使用合成的異常圖像。在第一步驟(a)中,訓(xùn)練具有合成輸入的學(xué)生網(wǎng)絡(luò),以從干凈的圖像生成與教師網(wǎng)絡(luò)類似的特征表示。在第二步(b)中,學(xué)生和教師網(wǎng)絡(luò)的歸一化輸出的元素乘積被級聯(lián)并用于訓(xùn)練分割網(wǎng)絡(luò)。分割輸出是預(yù)測的異常得分圖。

3.方法細節(jié):原理概覽
所提出的 DeSTSeg 由三個主要組件組成:預(yù)先訓(xùn)練的教師網(wǎng)絡(luò)、去噪的學(xué)生網(wǎng)絡(luò)和分割網(wǎng)絡(luò)。
將合成異常引入到正常訓(xùn)練圖像中,并分兩步訓(xùn)練模型。
在第一步中,模擬的異常圖像被用作學(xué)生網(wǎng)絡(luò)的輸入,而原始的干凈圖像被用作教師網(wǎng)絡(luò)的輸入。教師網(wǎng)絡(luò)的權(quán)重是固定的,但用于去噪的學(xué)生網(wǎng)絡(luò)是可訓(xùn)練的。
在第二步中,學(xué)生模型也是固定的。學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)都以合成的異常圖像作為輸入,以優(yōu)化分割網(wǎng)絡(luò)中的參數(shù)來定位異常區(qū)域。
為了推斷,以端到端模式生成像素級異常圖,并且可以通過后處理來計算相應(yīng)的圖像級異常分數(shù)。
3.1方法細節(jié): Synthetic Anomaly Generation 合成異常生成
我們模型的訓(xùn)練依賴于使用 [Draem] 中提出的相同算法生成的合成異常圖像。生成隨機二維Perlin噪聲,并通過預(yù)設(shè)閾值進行二值化以獲得異常掩模 M。通過用無異常圖像和來自外部數(shù)據(jù)源A的任意圖像的線性組合替換掩模區(qū)域來生成異常圖像
,其中不透明度因子β在[0.15,1]之間隨機選擇:

表示逐元素乘法運算。異常生成在訓(xùn)練期間在線執(zhí)行。通過使用該算法,介紹了三個優(yōu)點。
首先,與繪制矩形異常掩模相比,隨機Perlin噪聲生成的異常掩模更不規(guī)則,與實際異常形狀相似。 其次,用作異常內(nèi)容A的圖像可以在沒有精心選擇的情況下任意選擇。 第三,引入不透明度因子β可以被視為數(shù)據(jù)擴充,以有效增加訓(xùn)練集的多樣性。
3.2方法細節(jié):Denoising Student-Teacher Network 去噪教師學(xué)生網(wǎng)絡(luò)
在以前的多層次知識蒸餾方法中,學(xué)生網(wǎng)絡(luò)(正常圖像)的輸入與教師網(wǎng)絡(luò)的輸入相同,學(xué)生網(wǎng)絡(luò)的架構(gòu)也是如此。然而,提出的去噪學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)以成對的異常和正常圖像作為輸入,去噪學(xué)生網(wǎng)絡(luò)具有不同的編碼器-編碼器架構(gòu)。在接下來的兩段中,我們將研究這種設(shè)計的動機。
首先,建立優(yōu)化目標,以鼓勵學(xué)生網(wǎng)絡(luò)生成不同于教師的異常特定特征。我們進一步賦予學(xué)生網(wǎng)絡(luò)一個更直接的目標:在教師網(wǎng)絡(luò)監(jiān)督的異常區(qū)域上建立正常特征表示。由于教師網(wǎng)絡(luò)是在大型數(shù)據(jù)集上預(yù)先訓(xùn)練的,它可以在正常和異常區(qū)域生成判別特征表示。因此,在推理過程中,去噪學(xué)生網(wǎng)絡(luò)將生成與教師網(wǎng)絡(luò)不同的特征表示。其次,考慮到特征重建任務(wù),得出結(jié)論,學(xué)生網(wǎng)絡(luò)不應(yīng)該復(fù)制教師網(wǎng)絡(luò)的架構(gòu)??紤]到重建早期層的特征的過程,眾所周知,CNN的較低層捕獲局部信息,如紋理和顏色。相反,CNN的上層表達全局語義信息。
我們采用它作為去噪學(xué)生網(wǎng)絡(luò)的架構(gòu)。有一種替代方法可以使用教師網(wǎng)絡(luò)作為編碼器,并將學(xué)生網(wǎng)絡(luò)反向作為解碼器;初步實驗結(jié)果表明,完整的編碼器-解碼器學(xué)生網(wǎng)絡(luò)性能更好。一種可能的解釋是,預(yù)先訓(xùn)練的教師網(wǎng)絡(luò)通常在ImageNet上進行分類任務(wù)訓(xùn)練;因此,最后一層中的編碼特征缺乏足夠的信息來重建所有級別的特征表示。
教師網(wǎng)絡(luò)使用 ImageNet 上預(yù)訓(xùn)練的 ResNet18,移除了最終塊(即conv5_x)。從剩余的三個塊,即分別表示為的conv2_x、conv3_x和conv4_x中提取輸出特征圖。關(guān)于去噪學(xué)生網(wǎng)絡(luò),編碼器是隨機初始化的 ResNet18,所有塊分別命名為
,
,
,
。解碼器是反向 ResNet18(通過用雙線性上采樣代替所有下采樣),具有四個殘差塊,分別命名為
,
,
,


3.3方法細節(jié):Segmentation Network 分割網(wǎng)絡(luò)
我們凍結(jié)學(xué)生和教師網(wǎng)絡(luò)的權(quán)重來訓(xùn)練分割網(wǎng)絡(luò)。合成異常圖像被用作兩個S-T網(wǎng)絡(luò)的輸入,并且相應(yīng)的二進制異常掩碼是GT。通過等式2計算特征圖(),?(
)和(
)的相似性,并將其上采樣到與X_1相同的大小,是輸入大小的1/4。
上采樣的特征,表示為,
和
,然后被連接為
,其被饋送到分割網(wǎng)絡(luò)中。在后面還研究了計算分割網(wǎng)絡(luò)輸入的替代方法。分割網(wǎng)絡(luò)包含兩個殘差塊和一個Atrous Spatial Pyramid Pooling(ASPP)模塊。沒有上采樣或下采樣;因此,輸出大小等于X1的大小。盡管這可能在一定程度上導(dǎo)致分辨率損失,但它降低了訓(xùn)練和推理的內(nèi)存成本,這在實踐中至關(guān)重要。
通過使用Focal Loss和L1損失來優(yōu)化分割訓(xùn)練。在訓(xùn)練集中,大多數(shù)像素是正常的,并且很容易被識別為背景。只有圖像的一小部分由必須分割的異常像素組成。因此, Focal Loss可以幫助模型專注于少數(shù)類別和困難樣本。此外,L1損耗被用來提高輸出的稀疏性,使得分割掩模的邊界更加明顯。為了計算損失,我們對GT異常掩碼進行下采樣,使其大小等于輸入大小的1/4,這與輸出(H1,W1)相匹配。在數(shù)學(xué)上,我們將輸出概率圖表示為,將下采樣異常掩模表示為M,并使用等式5計算Focal Loss 。其中
,γ是聚焦參數(shù)。L1損失由等式6計算,分段損失由等式7計算:



實驗結(jié)果:






需要CVPR論文的同學(xué)!
關(guān)注“學(xué)姐帶你玩AI”公眾號
回復(fù)“CVPR”免費領(lǐng)取論文合集