詳解工業(yè)視覺小樣本異常檢測(cè)最新網(wǎng)絡(luò)Graphcore(ICLR 23)
來源:投稿 作者:橡皮
編輯:學(xué)姐

論文鏈接:https://openreview.net/pdf?id=xzmqxHdZAwO
論文代碼:尚未開源
1.背景
隨著人工智能中深度視覺檢測(cè)技術(shù)的快速發(fā)展,檢測(cè)工業(yè)產(chǎn)品表面的異常/缺陷受到了前所未有的關(guān)注。生產(chǎn)轉(zhuǎn)換是指將生產(chǎn)線或機(jī)器從加工一種產(chǎn)品轉(zhuǎn)換為另一種產(chǎn)品。由于檢測(cè)設(shè)備在生產(chǎn)線啟動(dòng)后還沒有完全微調(diào),因此這樣的轉(zhuǎn)換經(jīng)常導(dǎo)致異常檢測(cè)性能不令人滿意。如何在轉(zhuǎn)換場(chǎng)景中實(shí)現(xiàn)工業(yè)產(chǎn)品模型的快速訓(xùn)練,同時(shí)確保準(zhǔn)確的異常檢測(cè),是實(shí)際生產(chǎn)過程中的一個(gè)關(guān)鍵問題。
AD在行業(yè)中的現(xiàn)狀如下:
(1)就檢測(cè)精度而言,在轉(zhuǎn)換過程中,最先進(jìn)的AD模型的性能急劇下降。當(dāng)前的主流工作利用大量的訓(xùn)練數(shù)據(jù)作為輸入來訓(xùn)練模型,如圖(a)所示。然而,這將使數(shù)據(jù)收集具有挑戰(zhàn)性,即使對(duì)于無監(jiān)督的學(xué)習(xí)也是如此。因此,已經(jīng)提出了許多以精度為代價(jià)的基于少鏡頭學(xué)習(xí)的方法。例如元學(xué)習(xí),如圖(b)所示。但由于設(shè)置復(fù)雜,在切換過程中無法靈活遷移到新產(chǎn)品,檢測(cè)精度無法保證。
(2)在模型訓(xùn)練速度方面,當(dāng)大量數(shù)據(jù)用于訓(xùn)練時(shí),實(shí)際生產(chǎn)線上新產(chǎn)品的訓(xùn)練進(jìn)度會(huì)放緩。眾所周知,原始的無監(jiān)督范式需要收集大量信息。盡管元學(xué)習(xí)在小樣本學(xué)習(xí)中有效,如(b)所示,但仍有必要訓(xùn)練之前收集的大量的數(shù)據(jù)。

2.本文主要貢獻(xiàn)
基于對(duì)以上問題的考慮,我們的目標(biāo)是在生產(chǎn)轉(zhuǎn)換過程中處理生產(chǎn)線的冷啟動(dòng)。如圖(c)所示,開發(fā)了一種新的FSAD方法,稱為GraphCore,該方法使用少量正常樣本來實(shí)現(xiàn)新產(chǎn)品的快速訓(xùn)練和有競(jìng)爭(zhēng)力的AD精度性能。一方面,通過利用少量數(shù)據(jù),我們可以快速訓(xùn)練并加快異常推理的速度。另一方面,因?yàn)槲覀冎苯佑?xùn)練新產(chǎn)品樣本,所以不會(huì)發(fā)生從舊產(chǎn)品到新產(chǎn)品的異常適應(yīng)和遷移。
提出了一種用于 FSAD 的特征增強(qiáng)方法,以研究 CNN 生成的視覺特征的特性。
提出了一種新穎的異常檢測(cè)模型 GraphCore,將新的 VIIF 添加到基于內(nèi)存庫(kù)的 AD 范例中,這可以大大減少冗余視覺特征的數(shù)量。
實(shí)驗(yàn)結(jié)果表明,所提出的 VIIF 是有效的,可以顯著提高 FSAD 在 MVTec AD 和 MPDD 數(shù)據(jù)集上的性能。
3.方法簡(jiǎn)介
「問題設(shè)置?!?/strong> 圖 (c) 概述了所提出的 FSAD 問題設(shè)置的正式定義。訓(xùn)練過程僅包含來自特定類別的 n 個(gè)正常樣本的訓(xùn)練集,其中 n ≤ 8。在測(cè)試時(shí),對(duì)于給定目標(biāo)類別中的正?;虍惓颖?,異常檢測(cè)模型應(yīng)預(yù)測(cè)圖像是否異常,如果預(yù)測(cè)結(jié)果異常,則定位異常區(qū)域。
「挑戰(zhàn)。」 對(duì)于提出的 FSAD,我們嘗試僅使用少量正常圖像作為訓(xùn)練數(shù)據(jù)集來檢測(cè)測(cè)試樣本中的異常。主要挑戰(zhàn)包括:(1)每個(gè)類別的訓(xùn)練數(shù)據(jù)集僅包含正常樣本,即沒有圖像或像素級(jí)別的注釋。 (2) 可用的訓(xùn)練集正態(tài)樣本很少。在我們提出的設(shè)置中,訓(xùn)練樣本少于 8 個(gè)。
「動(dòng)機(jī)。」 在真實(shí)的工業(yè)圖像數(shù)據(jù)集中,某些類別下的圖像極其相似。它們中的大多數(shù)都可以通過簡(jiǎn)單的數(shù)據(jù)增強(qiáng)相互轉(zhuǎn)換,例如螺母和螺釘。例如,旋轉(zhuǎn)增強(qiáng)可以有效地提供新的螺旋數(shù)據(jù)集。因此,當(dāng)面臨上述的挑戰(zhàn)時(shí),我們自然傾向于通過數(shù)據(jù)擴(kuò)充獲取額外的數(shù)據(jù)。然后,特征存儲(chǔ)庫(kù)可以存儲(chǔ)更多有用的特征。
4.方法細(xì)節(jié)
4.1數(shù)據(jù)增強(qiáng)+PATCHCORE
為了驗(yàn)證我們的洞察力,已將 PatchCore應(yīng)用到我們的模型中。我們將 PatchCore 的增強(qiáng)(旋轉(zhuǎn))表示為 Aug.(R)。該架構(gòu)在圖2中進(jìn)行了詳細(xì)描述。在從 ImageNet 預(yù)訓(xùn)練模型中提取特征之前,會(huì)進(jìn)行數(shù)據(jù)擴(kuò)充(例如,旋轉(zhuǎn))。

對(duì)于PatchCore 的增強(qiáng)(旋轉(zhuǎn)): Aug.(R)

4.2視覺等距不變特征
在4.1 中,作者啟發(fā)式地證明數(shù)據(jù)增強(qiáng)+PatchCore 在提出的少樣本異常檢測(cè)上下文中優(yōu)于 SOTA 模型。本質(zhì)上,數(shù)據(jù)增強(qiáng)方法立即將正常樣本的特征合并到記憶庫(kù)中。換句話說,數(shù)據(jù)增強(qiáng)+PatchCore 提高了定位子集特征的概率,使得測(cè)試圖像的異常分?jǐn)?shù)可以更精確地計(jì)算。因此,作者質(zhì)疑是否可以從少量正常樣本中提取出不變的表征特征,并將其添加到特征記憶庫(kù)中。如下圖所示,作者提出了一種新的特征提取模型:視覺等距不變圖神經(jīng)網(wǎng)絡(luò) (VIIG)。所提出的模型嘗試從正常樣本的每個(gè)補(bǔ)丁中提取視覺等距不變特征 (VIIF)。如前所述,大多數(shù)工業(yè)視覺異常檢測(cè)數(shù)據(jù)集都可以通過旋轉(zhuǎn)、平移和翻轉(zhuǎn)進(jìn)行轉(zhuǎn)換。因此,GNN 的同構(gòu)性非常適合工業(yè)視覺異常檢測(cè)。

4.3圖像的圖(Graph)表示
下圖顯示了 GraphCore 的特征提取過程。具體來說,對(duì)于尺寸為 H×W×3 的普通樣本圖像,我們將其均勻地分成 N 個(gè) patch。此外,每個(gè)補(bǔ)丁都被轉(zhuǎn)換成一個(gè)特征向量 fi ∈ RD。所以我們有特征 F = [f1, f2, · · · , fN],其中 D 是特征維度,i = 1, 2, · · · , N。我們將這些特征視為無序節(jié)點(diǎn) V = {v1, v2,···,vN}。對(duì)于某些每個(gè)節(jié)點(diǎn) vi,我們 K 個(gè)最近鄰表示 N (vi) 并為所有 vj ∈ N (vi) 添加一條從 vj 指向 vi 的邊 eij。因此,每個(gè)正態(tài)樣本塊可以表示為圖 G = (V, E)。 E指代圖G的所有邊。

4.4圖特征處理
上圖顯示了所提出的視覺等距不變 GNN 的架構(gòu)。具體來說,我們將特征提取設(shè)置為 GCN。通過與其鄰居節(jié)點(diǎn)交換信息來聚合每個(gè)節(jié)點(diǎn)的特征。特征提取操作如下:

其中 Waggregate 和 Wupdate 表示聚合和更新操作的權(quán)重。它們都可以以端到端的方式進(jìn)行優(yōu)化。具體來說,每個(gè)節(jié)點(diǎn)的聚合操作是通過聚合相鄰節(jié)點(diǎn)的特征來計(jì)算的:

其中h是節(jié)點(diǎn)特征更新函數(shù),g是節(jié)點(diǎn)特征聚合特征函數(shù)。N (f li ) 表示第 l 層的 f li 的鄰居節(jié)點(diǎn)集。具體來說,我們采用最大相對(duì)圖卷積作為運(yùn)算符。所以g和h定義為:

在等式 3 和 4 中,g(·) 是一個(gè)最大池化頂點(diǎn)特征聚合器,它聚合了節(jié)點(diǎn) vi 與其所有鄰居之間的特征差異。 h(·) 是具有批量歸一化和 ReLU 激活的 MLP 層。
4.5 GraphCore結(jié)構(gòu)
結(jié)構(gòu)如下圖。在訓(xùn)練階段,GraphCore與Augmentation+PatchCore最顯著的區(qū)別在于特征記憶庫(kù)構(gòu)建算法。特征構(gòu)建算法同算法1:Aug.(R) memory bank。請(qǐng)注意,我們?cè)跊]有數(shù)據(jù)增強(qiáng)的情況下使用視覺等距不變 GNN 作為特征提取器 P。在測(cè)試階段,GraphCore 異常分?jǐn)?shù) s* 的計(jì)算與 Augmentation + PatchCore 中的非常相似。唯一的區(qū)別是每個(gè)正常補(bǔ)丁樣本的特征提取方法。 GraphCore 的結(jié)構(gòu)細(xì)節(jié)顯示在下表21 中。


4.6 數(shù)據(jù)增強(qiáng)+PATCHCORE 和 GRAPHCORE 的統(tǒng)一視圖
下圖展示了 Augmentation+PatchCore 和 GraphCore 的統(tǒng)一視圖。 Augmentation+PatchCore提示GraphCore獲取等距不變特征。因此,GraphCore 可以提高定位特征子集的概率,從而可以最準(zhǔn)確、最快速地計(jì)算出測(cè)試圖像的異常分?jǐn)?shù)。表 1 顯示了 PatchCore、Augmentation+PatchCore 和 GraphCore 在架構(gòu)細(xì)節(jié)方面的差異。


5.實(shí)驗(yàn)結(jié)果
GraphCore VS Augmentation+PatchCore VS RegAD 不同樣本量下的結(jié)果 (K):

FSAD 在 MVTec AD 和 MPDD 上所有類別的平均結(jié)果。采樣率為0.01,x|y分別代表圖像AUROC和像素AUROC。 表現(xiàn)最佳的方法以粗體顯示。

FSAD 在 MVTec AD 上的結(jié)果。樣本量K=2,采樣率為0.01,x|y分別表示圖像AUROC和像素AUROC。表現(xiàn)最佳的方法以粗體顯示。

FSAD在MPDD上的結(jié)果。樣本量K=2,采樣率為0.01,x|y分別表示圖像AUROC和像素AUROC。表現(xiàn)最佳的方法以粗體顯示。

提出的方法在 MVTec AD 和 MPDD 上的可視化結(jié)果。

掃碼添加小享,回復(fù)“異常檢測(cè)”
領(lǐng)取全部33篇 異常檢測(cè)前沿+經(jīng)典論文

