2023年7月7日
Exploring new ways: Enforcing representational dissimilarity to learn new features and reduce error consistency
https://arxiv.org/pdf/2307.02516.pdf
independently trained CNNs tend to predict erroneously on the same cases much more often than expected by chance given their accuracy, and more often than e.g. humans
獨立訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在相同案例上產(chǎn)生錯誤預(yù)測的頻率往往比預(yù)期的要高得多,也比人類等其他實體更頻繁。
這句話指的是,當(dāng)使用獨立進(jìn)行訓(xùn)練的多個卷積神經(jīng)網(wǎng)絡(luò)對相同的案例進(jìn)行預(yù)測時,它們會產(chǎn)生錯誤的預(yù)測,并且這種錯誤發(fā)生的頻率遠(yuǎn)超過預(yù)期的隨機(jī)概率,甚至比人類等其他實體的錯誤率更高。
簡單來說,這個觀察結(jié)果表明,即使這些獨立訓(xùn)練的CNN在準(zhǔn)確度方面表現(xiàn)良好,但它們?nèi)匀淮嬖谝环N共性,即在某些特定案例上出現(xiàn)錯誤預(yù)測的傾向。這種情況可能是由于數(shù)據(jù)集中存在一些困難樣本或者模型的局限性造成的。相比之下,人類可能會更好地理解這些案例,從而在預(yù)測時產(chǎn)生較低的錯誤率。
需要注意的是,這只是針對獨立訓(xùn)練的CNN的一般趨勢觀察,具體結(jié)果可能因數(shù)據(jù)集、模型架構(gòu)和任務(wù)類型等因素而有所不同。
different models are functionally similar, through stitching (Lenc & Vedaldi, 2015) the top of a model to the bottom of another independently trained model with marginal accuracy penalties
通過將一個模型的頂部和另一個獨立訓(xùn)練的模型的底部進(jìn)行拼接(Lenc & Vedaldi, 2015),可以使得這些不同的模型在功能上相似,并且只會帶來較小的準(zhǔn)確性損失。
這句話指的是,通過將兩個獨立訓(xùn)練的模型進(jìn)行拼接,可以創(chuàng)建一個新的模型。具體而言,將一個模型的頂部(即輸出層之前的部分)與另一個模型的底部(即輸入層之后的部分)相連接,形成一個更大的模型。
這種拼接的操作通常用于特征融合或模型集成的目的。通過將多個模型組合起來,可以利用它們各自的優(yōu)勢,從而提高整體性能。同時,作者也指出,這種拼接操作對模型的準(zhǔn)確性可能會產(chǎn)生一定的影響,但是這個影響通常是可接受的小幅度準(zhǔn)確性損失。
需要注意的是,具體的拼接方法可能因模型結(jié)構(gòu)和任務(wù)類型而異。這種方法的有效性和適用性還取決于實際應(yīng)用場景和數(shù)據(jù)集的特點。
showed that independently trained ResNets exhibit
a linear mode connectivity with zero loss barrier, given a
previous functionally invariant kernel weight permutation
這項研究表明,獨立訓(xùn)練的ResNet模型在前一個函數(shù)不變的卷積核權(quán)重置換下,顯示出線性模式連接,并且不存在零損失屏障。
這句話描述了一項關(guān)于獨立訓(xùn)練的ResNet模型的研究結(jié)果。研究發(fā)現(xiàn),當(dāng)對卷積核權(quán)重進(jìn)行函數(shù)不變的置換時,即使是獨立訓(xùn)練的ResNet模型也會呈現(xiàn)出線性模式的連接特性。這意味著通過保持權(quán)重的函數(shù)不變性,可以在模型之間建立一種線性關(guān)系。
此外,該研究還指出,在給定先前函數(shù)不變的卷積核權(quán)重置換的情況下,ResNet模型之間不存在零損失屏障。換句話說,無論經(jīng)過何種權(quán)重置換,這些ResNet模型之間都沒有彼此之間完全相等的權(quán)重配置所導(dǎo)致的零損失的情況。
這項研究結(jié)果揭示了獨立訓(xùn)練的ResNet模型之間的連接特性和權(quán)重配置的相關(guān)性,為我們對神經(jīng)網(wǎng)絡(luò)模型的理解提供了新的視角。
showed that distinct latent spaces
of two independently trained models tend to differ just by
an quasi-isometric transformation
這項研究表明,兩個獨立訓(xùn)練的模型的不同潛空間往往只通過一種準(zhǔn)等距變換來區(qū)分。
這句話描述了一項關(guān)于獨立訓(xùn)練的模型的研究結(jié)果。研究發(fā)現(xiàn),當(dāng)對兩個獨立訓(xùn)練的模型的潛空間進(jìn)行比較時,它們之間的差異通??梢酝ㄟ^一種準(zhǔn)等距變換來解釋。
準(zhǔn)等距變換是指保持距離和角度的變換方式。在這種情況下,研究發(fā)現(xiàn)兩個模型的潛空間之間存在一種相對穩(wěn)定的、接近準(zhǔn)等距的關(guān)系。也就是說,通過對一個模型的潛空間應(yīng)用適當(dāng)?shù)臏?zhǔn)等距變換,可以獲得與另一個模型的潛空間非常相似的結(jié)果。
這項研究結(jié)果揭示了獨立訓(xùn)練的模型之間潛空間的特點和相互之間的關(guān)系。它為我們理解模型的表示能力以及模型之間的相似性提供了重要線索。
While the feature similarity is not a problem for a single
model, multiple models are often combined into an ensemble to improve performance and to measure predictive uncertainty (Lakshminarayanan et al., 2016). When these models
learn the same features, they may learn spurious correlations
that are not actually useful for the task at hand. This causes
them to share failure modes making them fail in the same
way. Ensemble improvement is highly dependent on models having a large disagreement error ratio (Theisen et al.,
2023) or low error consistency (Geirhos et al., 2020).
單個模型的特征相似性通常不是一個問題,但是多個模型經(jīng)常被組合成一個集合,以提高性能并測量預(yù)測的不確定性(Lakshminarayanan等人,2016)。當(dāng)這些模型學(xué)習(xí)相同的特征時,它們可能會學(xué)習(xí)到與實際任務(wù)無關(guān)的虛假相關(guān)性。這導(dǎo)致它們共享失敗模式,使它們以相同的方式失敗。集合改進(jìn)高度依賴于模型具有較大的差異錯誤比率(Theisen等人,2023)或低錯誤一致性(Geirhos等人,2020)。
這段話描述了將多個模型組合成集合時可能遇到的問題。當(dāng)多個模型共享相同的特征或?qū)W習(xí)到不相關(guān)的虛假相關(guān)性時,它們可能在相同的情況下出現(xiàn)失敗。因此,僅僅將多個相似的模型組合在一起并不能有效地提升性能。
為了從集合中獲得更好的性能提升,需要確保模型之間存在較大的差異和多樣性。這可以通過增加模型之間的差異、引入隨機(jī)性或利用不同的訓(xùn)練策略來實現(xiàn)。通過使模型產(chǎn)生不一致的錯誤,或者降低模型之間的錯誤一致性,可以提高集合方法的效果。
這些研究結(jié)果指出,在構(gòu)建模型集合時,需要注意模型之間的差異性和多樣性,以避免共享失敗模式和虛假相關(guān)性所帶來的問題,并獲得更好的性能提升。
This can be increased slightly through different augmentation schemes, moderately through different pre-training schemes and strongly through pre-training on a different dataset, with higher error inconsistency in error rates improving ensemble benefits more (Gontijo-Lopes et al., 2022).
增加模型集合的多樣性可以通過不同的數(shù)據(jù)增強(qiáng)方案略微提高,通過不同的預(yù)訓(xùn)練方案適度提高,而通過在不同數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練可以顯著提高。其中,錯誤率不一致性更大的情況下,集合效果會得到更大的改善(Gontijo-Lopes等人,2022)。
這段話指出了增加模型集合多樣性的幾種方法以及它們對提升集合效果的影響。
首先,通過應(yīng)用不同的數(shù)據(jù)增強(qiáng)方案,可以在一定程度上增加模型之間的差異性。數(shù)據(jù)增強(qiáng)是通過對訓(xùn)練數(shù)據(jù)應(yīng)用各種變換和擾動來生成更多的訓(xùn)練樣本,從而豐富了模型所觀察到的數(shù)據(jù)分布。
其次,通過使用不同的預(yù)訓(xùn)練方案,例如在不同的任務(wù)或數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,可以進(jìn)一步提高模型集合的多樣性。這些預(yù)訓(xùn)練方案可以幫助模型學(xué)習(xí)到不同的特征表示和數(shù)據(jù)統(tǒng)計信息。
最后,通過在不同的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,可以顯著增加模型集合的多樣性。不同數(shù)據(jù)集之間可能存在領(lǐng)域差異和數(shù)據(jù)分布的差異,這樣的預(yù)訓(xùn)練可以幫助模型在不同領(lǐng)域或任務(wù)上具有更好的泛化能力。
此外,研究還發(fā)現(xiàn),錯誤率不一致性較大的情況下,模型集合的效果會得到進(jìn)一步的改善。這意味著當(dāng)模型在不同樣本上產(chǎn)生不一致的錯誤時,集合方法可以更好地利用這種差異性,從而提高整體性能。
總結(jié)而言,通過采用不同的數(shù)據(jù)增強(qiáng)方案、預(yù)訓(xùn)練方案以及在不同數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,可以增加模型集合的多樣性。同時,錯誤率的不一致性也對于集合效果的提升起著重要作用。
什么是錯誤率的不一致性?error inconsistency
錯誤率的不一致性是指在模型集合中,不同的模型對于相同樣本或相同任務(wù)的預(yù)測結(jié)果存在較大差異的情況。也就是說,每個模型在處理相同數(shù)據(jù)時產(chǎn)生了不同的錯誤。
當(dāng)模型集合中的不同模型具有不一致的錯誤率時,集合方法可以利用這種差異性來提高整體性能。如果所有模型都犯同樣的錯誤,那么集合的效果可能不會明顯改善。但如果不同模型之間在特定樣本上產(chǎn)生不同的錯誤,集合可以通過綜合多個模型的結(jié)果來減少整體錯誤率。
錯誤率的不一致性通??梢酝ㄟ^訓(xùn)練不同的模型、使用不同的訓(xùn)練策略或引入隨機(jī)性來增加。這些方法可以幫助模型集合中的不同模型探索不同的解空間,從而導(dǎo)致不一致的錯誤率。
需要注意的是,錯誤率的不一致性并不一定總是好的。過大的錯誤率差異可能會導(dǎo)致集合中某些模型的預(yù)測結(jié)果不可靠,因此在構(gòu)建模型集合時需要權(quán)衡不一致性和性能提升之間的關(guān)系。
In this paper, we propose to regularize internal representations of a new model to be dissimilar to an existing model to
promote discovering novel ways of solving the task, which,
to the best of our knowledge, has not been explored so far.
Through this we hope to learn about the connection of internal similarity to the predictive behavior between models,
specifically whether inducing diversity in intermediate processing stages leads to different predictive behavior and
more robust ensembles.
在本文中,我們提出通過正則化新模型的內(nèi)部表示與現(xiàn)有模型不相似來促進(jìn)發(fā)現(xiàn)解決任務(wù)的新方法,據(jù)我們所知,這個方向迄今尚未被探索。通過這種方式,我們希望了解內(nèi)部相似性與模型之間的預(yù)測行為之間的關(guān)聯(lián),特別是在中間處理階段引入多樣性是否會導(dǎo)致不同的預(yù)測行為和更強(qiáng)大的集合模型。
這段話提出了一種新的方法,即通過正則化新模型的內(nèi)部表示與現(xiàn)有模型不相似來促進(jìn)多樣性的產(chǎn)生,并探索多樣性對集合模型預(yù)測行為和魯棒性的影響。
目前為止,多樣性方法主要集中在輸入數(shù)據(jù)或輸出特征上的正則化。然而,在模型的內(nèi)部表示層面引入多樣性可能會更加有效。通過使新模型的內(nèi)部表示與現(xiàn)有模型不相似,可以促使新模型發(fā)現(xiàn)解決任務(wù)的新穎方法。
通過研究內(nèi)部相似性與模型預(yù)測行為之間的連接,可以確定中間處理階段的多樣性是否會導(dǎo)致不同的預(yù)測行為。這將有助于理解模型集合中的多樣性如何影響集合的魯棒性和性能表現(xiàn)。
總結(jié)而言,本文提出了一種新的方法,通過正則化新模型的內(nèi)部表示與現(xiàn)有模型不相似來增加多樣性,并希望探索多樣性對集合模型預(yù)測行為和魯棒性的影響。這是一個有趣且值得進(jìn)一步研究的方向,可以為我們理解模型集合的工作機(jī)制和性能改進(jìn)提供新的見解。
Our main contributions are:
1. We utilize methods from the field of representational
similarity in a novel way to train ensembles of very
low representational similarity at intermediate layers.
2. We show that highly dissimilar internal representations can be learned at chosen positions with only minor
penalties to the model accuracy.
3. We show that enforcing dissimilar internal representations can lead to lower error consistency in the predicted outputs, overall improving ensembling performance relative to an ensemble of independently trained
models.
我們的主要貢獻(xiàn)包括:
利用表征相似性領(lǐng)域的方法以一種新穎的方式訓(xùn)練具有非常低表征相似性的中間層次的模型集合。我們運(yùn)用表征相似性的概念來引導(dǎo)模型在中間層次學(xué)習(xí)到高度不相似的內(nèi)部表示。
我們展示了在選定的位置上學(xué)習(xí)到高度不相似的內(nèi)部表示時,對模型準(zhǔn)確性只會產(chǎn)生較小的影響。即使在追求多樣性的同時,我們的方法也能保持模型的高精度。
我們展示了強(qiáng)制實現(xiàn)不同的內(nèi)部表示可以降低預(yù)測輸出的錯誤一致性,并且相對于獨立訓(xùn)練的模型集合,整體上提高了集合模型的性能。通過增加模型集合的多樣性,我們能夠改善模型集合的性能,減少模型之間的錯誤一致性。
這些貢獻(xiàn)共同構(gòu)成了我們的研究工作,為理解和提升模型集合的性能和多樣性提供了新的思路和實證結(jié)果。
Loss Functions and Metrics in Deep Learning. A Review
https://arxiv.org/pdf/2307.02694.pdf
深度學(xué)習(xí)的一個重要組成部分是選擇用于訓(xùn)練和評估模型的損失函數(shù)和性能指標(biāo)。本論文回顧了深度學(xué)習(xí)中最常見的損失函數(shù)和性能測量方法。我們對每種技術(shù)的優(yōu)點和限制進(jìn)行了考察,并說明了它們在各種深度學(xué)習(xí)問題中的應(yīng)用。我們的綜述旨在全面介紹在最常見的深度學(xué)習(xí)任務(wù)中使用的不同損失函數(shù)和性能指標(biāo),幫助從業(yè)者為他們的具體任務(wù)選擇最佳方法。
FREEDOM: Target Label & Source Data & Domain Information-Free?Multi-Source Domain Adaptation for Unsupervised Personalization
https://arxiv.org/pdf/2307.02493.pdf
?From a service perspective, Multi-Source Domain Adaptation (MSDA) is a
promising scenario to adapt a deployed model to a client's dataset. It can
provide adaptation without a target label and support the case where a source
dataset is constructed from multiple domains. However, it is impractical,
wherein its training heavily relies on prior domain information of the
multi-source dataset -- how many domains exist and the domain label of each
data sample. Moreover, MSDA requires both source and target datasets
simultaneously (physically), causing storage limitations on the client device
or data privacy issues by transferring client data to a server. For a more
practical scenario of model adaptation from a service provider's point of view,
we relax these constraints and present a novel problem scenario of Three-Free
Domain Adaptation, namely TFDA, where 1) target labels, 2) source dataset, and
mostly 3) source domain information (domain labels + the number of domains) are
unavailable. Under the problem scenario, we propose a practical adaptation
framework called FREEDOM. It leverages the power of the generative model,
disentangling data into class and style aspects, where the style is defined as
the class-independent information from the source data and designed with a
nonparametric Bayesian approach. In the adaptation stage, FREEDOM aims to match
the source class distribution with the target's under the philosophy that class
distribution is consistent even if the style is different; after then, only
part of the classification model is deployed as a personalized network. As a
result, FREEDOM achieves state-of-the-art or comparable performance even
without domain information, with reduced final model size on the target side,
independent of the number of source domains.
從服務(wù)提供者的角度來看,多源域自適應(yīng)(MSDA)是將已部署的模型適應(yīng)到客戶數(shù)據(jù)集的一種有前景的場景。它可以在沒有目標(biāo)標(biāo)簽的情況下進(jìn)行自適應(yīng),并支持從多個領(lǐng)域構(gòu)建源數(shù)據(jù)集的情況。然而,在現(xiàn)實中,這種方法不太可行,因為它的訓(xùn)練嚴(yán)重依賴于多源數(shù)據(jù)集的先前領(lǐng)域信息,例如存在多少個領(lǐng)域以及每個數(shù)據(jù)樣本的領(lǐng)域標(biāo)簽。此外,MSDA需要同時獲取源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集(物理上),這可能導(dǎo)致客戶設(shè)備存儲限制或由于將客戶數(shù)據(jù)傳輸?shù)椒?wù)器而引起數(shù)據(jù)隱私問題。
為了更加實際地從服務(wù)提供者的角度進(jìn)行模型適應(yīng),我們放松了這些約束,并提出了一個新的問題場景,稱為Three-Free Domain Adaptation(TFDA)。在TFDA中,1) 目標(biāo)標(biāo)簽、2) 源數(shù)據(jù)集,以及大部分3) 源域信息(包括領(lǐng)域標(biāo)簽和領(lǐng)域數(shù)量)都是不可用的。在這個問題場景下,我們提出了一個實用的適應(yīng)框架,稱為FREEDOM。它利用生成模型的能力,將數(shù)據(jù)分解為類別和風(fēng)格兩個方面,其中風(fēng)格定義為源數(shù)據(jù)中與類別無關(guān)的信息,并采用非參數(shù)貝葉斯方法進(jìn)行設(shè)計。在適應(yīng)階段,F(xiàn)REEDOM旨在使源類別分布與目標(biāo)類別分布保持一致,因為即使風(fēng)格不同,類別分布也是一致的;然后,只有部分分類模型被部署為個性化網(wǎng)絡(luò)。結(jié)果,F(xiàn)REEDOM在沒有領(lǐng)域信息的情況下實現(xiàn)了最先進(jìn)或可比較的性能,在目標(biāo)端減小了最終模型的大小,而且與源領(lǐng)域的數(shù)量無關(guān)。
這項工作提出的TFDA和FREEDOM框架為服務(wù)提供者在實際情景下進(jìn)行模型適應(yīng)提供了新的可能性。通過解耦數(shù)據(jù)的類別和風(fēng)格方面,并利用類別分布的一致性進(jìn)行適應(yīng),該框架可以在沒有領(lǐng)域信息的情況下實現(xiàn)出色的性能。同時,它還解決了存儲限制和數(shù)據(jù)隱私問題,為服務(wù)提供者和客戶之間的合作提供了更便利和安全的方式。
對于基于深度學(xué)習(xí)的服務(wù)提供商來說,由客戶環(huán)境差異引起的領(lǐng)域轉(zhuǎn)移問題是常見的障礙之一,因為這些應(yīng)用程序被認(rèn)為是數(shù)據(jù)依賴的。這個問題源于客戶(目標(biāo))和服務(wù)器(源)端數(shù)據(jù)集之間的分布差異[1]。使用客戶數(shù)據(jù)進(jìn)行額外的適應(yīng)可以作為一種替代方案,但在大多數(shù)情況下,為客戶數(shù)據(jù)提供額外的注釋是繁重的任務(wù)。作為可能的解決方法,無監(jiān)督領(lǐng)域自適應(yīng)(UDA)[2]、[3]及其下游的多源域自適應(yīng)(MSDA)[4]、[5]旨在通過利用帶有標(biāo)簽的源數(shù)據(jù)集將模型適應(yīng)到未標(biāo)記的目標(biāo)數(shù)據(jù)上。特別是,MSDA考慮了更為合理的情況,即假設(shè)源數(shù)據(jù)集由來自多個領(lǐng)域的樣本組成。
在領(lǐng)域轉(zhuǎn)移問題中,最常見的情況是訓(xùn)練數(shù)據(jù)集和實際應(yīng)用場景中的數(shù)據(jù)集之間存在分布差異。這意味著,在使用已經(jīng)訓(xùn)練好的模型時,可能會出現(xiàn)性能下降的問題。為了解決這個問題,無監(jiān)督領(lǐng)域自適應(yīng)和多源域自適應(yīng)方法被引入。這些方法通過在未標(biāo)記的目標(biāo)數(shù)據(jù)上進(jìn)行模型適應(yīng),使用帶標(biāo)簽的源數(shù)據(jù)集作為輔助來減小源領(lǐng)域與目標(biāo)領(lǐng)域之間的分布差異。
MSDA方法特別關(guān)注源數(shù)據(jù)集由多個領(lǐng)域的樣本組成的情況。這種情況下,模型需要能夠適應(yīng)多個不同的領(lǐng)域,并具有良好的泛化能力。MSDA方法通常使用深度學(xué)習(xí)模型和一些領(lǐng)域自適應(yīng)技術(shù),如領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(Domain Adversarial Neural Networks)等。通過利用源數(shù)據(jù)集中的標(biāo)簽信息,MSDA可以在沒有目標(biāo)標(biāo)簽的情況下實現(xiàn)模型的適應(yīng)。
總之,無監(jiān)督領(lǐng)域自適應(yīng)和多源域自適應(yīng)方法旨在解決深度學(xué)習(xí)服務(wù)提供商面臨的領(lǐng)域轉(zhuǎn)移問題。它們通過利用源數(shù)據(jù)集中的標(biāo)簽信息和多個領(lǐng)域的樣本來適應(yīng)模型,從而提高模型在未標(biāo)記目標(biāo)數(shù)據(jù)上的性能。
盡管存在這些技術(shù)進(jìn)步,但在將現(xiàn)實世界的服務(wù)場景應(yīng)用于多源域自適應(yīng)(MSDA)時仍需考慮許多因素。由于源數(shù)據(jù)和目標(biāo)數(shù)據(jù)存在隱私問題,幾乎不允許將數(shù)據(jù)集相互傳輸。換句話說,客戶的未標(biāo)記數(shù)據(jù)無法傳輸?shù)椒?wù)器,反之亦然。此外,向客戶發(fā)送多個源數(shù)據(jù)集可能會受到存儲限制。近期引入了無源UDA(SFUDA)來解決這一情況,只需發(fā)送源端模型,而不是數(shù)據(jù)集[6]–[9]。還探索了多源無源領(lǐng)域自適應(yīng)(MSFDA)方法以支持多源情況[10],[11]。
在實際的服務(wù)場景中,由于隱私和存儲限制等因素,將源數(shù)據(jù)集傳輸給服務(wù)器或?qū)⒛繕?biāo)數(shù)據(jù)集傳輸給客戶端是不可行的。為了解決這個問題,最新的無源領(lǐng)域自適應(yīng)(SFUDA)方法提出了只傳輸源端模型而不傳輸數(shù)據(jù)集的方式。這樣可以避免數(shù)據(jù)隱私問題,并減輕存儲限制。類似地,多源無源領(lǐng)域自適應(yīng)(MSFDA)方法被探索用于支持多個源領(lǐng)域的情況。
這些方法的核心思想是通過在源端進(jìn)行適應(yīng),而不是通過傳輸數(shù)據(jù)集來解決隱私和存儲限制等問題。通過在源端構(gòu)建一個能夠適應(yīng)多個領(lǐng)域的模型,可以使模型具備更好的泛化能力,從而在目標(biāo)數(shù)據(jù)上獲得良好的性能。
總之,為了應(yīng)對隱私和存儲限制等問題,SFUDA和MSFDA方法提出了僅傳輸源端模型而不傳輸數(shù)據(jù)集的方式。這為多源域自適應(yīng)問題的解決提供了實用的解決方案。