ICML 2023最新域自適應(yīng)、域泛化論文分享(PDF+代碼)
域自適應(yīng)作為遷移學(xué)習(xí)的一種方法,主要解決源域與目標(biāo)域之間分布不同的相似任務(wù)決策問題,但域自適應(yīng)問題要求取得目標(biāo)域的有標(biāo)注或無標(biāo)注數(shù)據(jù),這與真實場景具有較大的區(qū)別。域泛化則是研究這一問題的有效方法,它希望模型能夠?qū)W到域無關(guān)的特征,這種特征可以容易地泛化到新的測試數(shù)據(jù)域上。
作為一直以來各大頂會的熱門方向,今年關(guān)于域自適應(yīng)和域泛化的高質(zhì)量論文數(shù)量也是相當(dāng)客觀,所以學(xué)姐又來做分享啦!
這次收集了9篇機(jī)器學(xué)習(xí)頂會ICML域自適應(yīng)/域泛化相關(guān)的 poster 論文,資料已打包,PDF+代碼都整理了!
掃碼添加小享,回復(fù)“域自適應(yīng)”
免費領(lǐng)取全部論文+代碼合集

1.「On Balancing Bias and Variance in Unsupervised Multi-Source-Free Domain Adaptation」
這篇文章研究了無源域 adaptation 的機(jī)器學(xué)習(xí)技術(shù)。
由于隱私、存儲等限制,不訪問源模型訓(xùn)練數(shù)據(jù)的無源域 adaptation 技術(shù)日益重要?,F(xiàn)有的多源無源域 adaptation (MSFDA) 方法通常使用源模型生成的偽標(biāo)簽數(shù)據(jù)訓(xùn)練目標(biāo)模型,主要關(guān)注提升偽標(biāo)簽技術(shù)或設(shè)計新的訓(xùn)練目標(biāo)。
本文試圖分析MSFDA的基本極限,具體而言,作者開發(fā)了目標(biāo)模型泛化錯誤的信息理論下界,該下界闡明了一個固有的偏差-方差權(quán)衡,然后從3個方面提供平衡該權(quán)衡的洞見:域聚合、選擇性偽標(biāo)記、聯(lián)合特征對齊,這導(dǎo)致了新算法的設(shè)計。
在多個數(shù)據(jù)集上的實驗證明,作者所提出的算法具有最先進(jìn)性能,特別是在一些最具挑戰(zhàn)性的數(shù)據(jù)集上,包括Office-Home和DomainNet。

2.「Sequential Counterfactual Risk Minimization」
這篇文章探索了反事實風(fēng)險最小化(CRM)在可以多次部署學(xué)習(xí)策略并獲得新數(shù)據(jù)的場景下的應(yīng)用。
CRM是處理logged bandit反饋問題的一個框架,其目標(biāo)是用離線數(shù)據(jù)改進(jìn)日志策略。作者將CRM原理和理論擴(kuò)展到可以多次部署策略并獲得新數(shù)據(jù)的場景,稱為“順序CRM(SCRM)”。
作者提出了一個新的反事實估計器,并確定了一些條件,這些條件可以通過類似于加速優(yōu)化方法中的重啟策略的分析來改進(jìn)CRM的過剩風(fēng)險和后悔率。在離散和連續(xù)動作設(shè)置中對該方法進(jìn)行了經(jīng)驗評估,證明了多次部署CRM的好處。相比僅進(jìn)行一次CRM,SCRM可以在一定條件下獲得更低的過剩風(fēng)險和更快的后悔率收斂速度。

3.「Provably Invariant Learning without Domain Information」
作者研究了無需環(huán)境信息的環(huán)境無關(guān)不變性學(xué)習(xí),以提高模型的魯棒性。
典型的機(jī)器學(xué)習(xí)應(yīng)用都假設(shè)數(shù)據(jù)滿足獨立同分布(IID),但這個假設(shè)在真實世界中常被違反,導(dǎo)致了分布偏移(OOD)概化問題和模型魯棒性大幅下降,不變性學(xué)習(xí)技術(shù)被利用來區(qū)分輸入特征中的偶發(fā)性特征和不變性特征,并僅依據(jù)不變性特征訓(xùn)練模型。許多不變性學(xué)習(xí)方法需要訓(xùn)練數(shù)據(jù)包含域信息,如環(huán)境索引或先驗知識獲得的輔助信息。但是獲得這些信息在實踐中通常不可能。
本文提出了TIVA,一個無需環(huán)境特定信息的環(huán)境無關(guān)不變性學(xué)習(xí)方法。在某些輕度數(shù)據(jù)條件下,可以訓(xùn)練一個基于與目標(biāo)無關(guān)的屬性的環(huán)境劃分策略,然后進(jìn)行不變性風(fēng)險最小化。在多個基準(zhǔn)測試中,與其他基線方法相比,該方法展示了在OOD下的卓越性能和優(yōu)異的魯棒性。

4.「Taxonomy-Structured Domain Adaptation」
這篇文章研究了具有層次分類結(jié)構(gòu)的域的域自適應(yīng)問題。
傳統(tǒng)的域自適應(yīng)方法大多局限于分類域,過于簡化了現(xiàn)實世界中的細(xì)致的域關(guān)系。本文針對具有分類法結(jié)構(gòu)的域,將域形式化為具有嵌套分層相似性結(jié)構(gòu)的域,如動物物種和產(chǎn)品目錄。
基于經(jīng)典的對抗框架,作者提出了一個新的分類法專家,與對抗判別器競爭以保留分類法信息。如果給定非信息性的域分類法(如所有葉節(jié)點連接到根節(jié)點的平坦分類法),則平衡恢復(fù)經(jīng)典對抗域自適應(yīng)的解決方案;對其他分類法給出非平凡的結(jié)果。在合成和真實世界數(shù)據(jù)集上的實驗中,本方法實現(xiàn)了狀態(tài)最優(yōu)的性能,并成功實現(xiàn)了自適應(yīng)。

5.「Generalization Analysis for Contrastive Representation Learning」
對比學(xué)習(xí)在各種機(jī)器學(xué)習(xí)任務(wù)中都展示了極佳的性能,但現(xiàn)有的泛化分析很有限甚至沒有意義?,F(xiàn)有的泛化誤差界與負(fù)樣本數(shù)k線性相關(guān),但實踐中經(jīng)常需要很大的k來保證對比學(xué)習(xí)在下游任務(wù)中的泛化。
本文建立了與k無關(guān)的對比學(xué)習(xí)泛化誤差界,對數(shù)項除外,分析利用了經(jīng)驗覆蓋數(shù)和Rademacher復(fù)雜度的結(jié)構(gòu)結(jié)果,利用了損失函數(shù)的Lipschitz連續(xù)性。對于自定界的Lipschitz損失函數(shù),進(jìn)一步通過樂觀界發(fā)展了快速率的結(jié)果,適用于低噪聲條件。
本文將結(jié)果應(yīng)用于線性表示和基于深度神經(jīng)網(wǎng)絡(luò)的非線性表示,都導(dǎo)出了Rademacher復(fù)雜度界來獲得更好的泛化界,因此本文的分析改進(jìn)了對比學(xué)習(xí)的泛化理論。

掃碼添加小享,回復(fù)“域自適應(yīng)”
免費領(lǐng)取全部論文+代碼合集

6.「Moderately Distributional Exploration for Domain Generalization」
作者提出了一個稱為MODE的方法,用于提高域泛化的性能。
域泛化目的是處理訓(xùn)練域和未知目標(biāo)域之間的分布變換,生成新域是最有效的方法之一,但其性能提升依賴于生成域和目標(biāo)域之間的分布差異。分布魯棒優(yōu)化通過在一個不確定集中探索域來處理分布差異,這很有前景。但是,不確定集可能非常大,導(dǎo)致域泛化中的低置信度預(yù)測。這是因為一個大的不確定集可能引入語義上不同的因素,與訓(xùn)練域不同。為解決這個問題,作者提出進(jìn)行適度分布探索(MODE)用于域泛化。
具體而言,MODE在一個與訓(xùn)練域共享相同語義因素的不確定子集中進(jìn)行分布探索。實驗證明,MODE可以賦予模型在未知目標(biāo)域上有可證明的泛化性能。

7.「Distribution Free Domain Generalization」
這篇文章提出了一種稱為DFDG的分布自由域泛化方法,以提高對分布偏移數(shù)據(jù)的預(yù)測準(zhǔn)確性。
在域泛化中,源域的訓(xùn)練數(shù)據(jù)分布往往與目標(biāo)域的數(shù)據(jù)分布不同,而目標(biāo)域的數(shù)據(jù)在訓(xùn)練中不可用。DFDG通過進(jìn)行標(biāo)準(zhǔn)化來避免少數(shù)域在訓(xùn)練中占主導(dǎo)地位。DFDG的實質(zhì)是用成對兩樣本測試統(tǒng)計量重新表述跨域/類的偏差,并平等地加權(quán)它們的重要性或協(xié)方差結(jié)構(gòu),以避免主導(dǎo)域/類,為多類分類問題建立了理論泛化界。
DFDG在實驗研究中展示了優(yōu)越的性能,且超參數(shù)更少,意味著更快更簡單的實現(xiàn)。

8.「In Search for a Generalizable Method for Source Free Domain Adaptation」
作者探討了源自由域自適應(yīng)(SFDA)在生物聲學(xué)領(lǐng)域中的應(yīng)用。
SFDA使用僅未標(biāo)注數(shù)據(jù)適配預(yù)先存在模型到新域,非常吸引人。作者將現(xiàn)有SFDA技術(shù)應(yīng)用于生物聲學(xué)中具有挑戰(zhàn)性的自然分布轉(zhuǎn)移,這與計算機(jī)視覺中常見的轉(zhuǎn)移很不同。作者發(fā)現(xiàn)現(xiàn)有方法相對于彼此的表現(xiàn)不同于視覺基準(zhǔn)中觀察到的,有時甚至表現(xiàn)比不進(jìn)行域自適應(yīng)還差。
作者提出了一個新的簡單方法,在新分布轉(zhuǎn)移上優(yōu)于現(xiàn)有方法,同時在一系列視覺數(shù)據(jù)集上展現(xiàn)強(qiáng)大的性能。研究結(jié)果表明,現(xiàn)有SFDA方法的泛化能力可能沒有人們預(yù)期的那么強(qiáng),考慮不同模態(tài)可以成為設(shè)計更健壯模型的有用途徑。

9.「RLSbench: Domain Adaptation Under Relaxed Label Shift」
這篇論文介紹了一個大規(guī)?;鶞?zhǔn)RLSbench用于研究relaxed label shift(變化的標(biāo)簽比例)。
作者研究了當(dāng)前域自適應(yīng)方法在標(biāo)簽分布變化下的效果,發(fā)現(xiàn)許多方法在標(biāo)簽比例變化時表現(xiàn)較差,于是構(gòu)建了包含超過500個分布變換對的RLSbench基準(zhǔn),跨視覺、表格和語言模式,標(biāo)簽比例變化不同?;鶞?zhǔn)集不僅關(guān)注p(x|y)的變化,也關(guān)注標(biāo)簽邊緣分布的變化。
作者提出一個通用的兩步元算法改進(jìn)現(xiàn)有域自適應(yīng)啟發(fā)式方法:i) 每個epoch pseudo-balance數(shù)據(jù) ii) 用目標(biāo)標(biāo)簽分布估計調(diào)整最終分類器。該元算法大幅提高了存在大標(biāo)簽比例變化情況下的域自適應(yīng)性能,同時對標(biāo)簽比例不變情況影響很小。
RLSbench填補(bǔ)了relaxed label shift評估的空白,鼓勵未來研究在該設(shè)置下評估方法。
掃碼添加小享,回復(fù)“域自適應(yīng)”
免費領(lǐng)取全部論文+代碼合集
