ICML 2023最新大模型 Oral 論文分享(PDF+代碼)
機(jī)器學(xué)習(xí)頂會(huì)ICML 2023于4月放榜,共有6538份論文提交,1827篇論文被接收,錄用率27.9%,達(dá)歷史之最。因?yàn)榻衲晟墒紸I的火爆,在提交的論文中,與大模型相關(guān)的論文數(shù)目也非??捎^。
今天我就和大家分享9篇 ICML 2023 中大模型和魯棒性相關(guān) Oral 文章。
掃碼添加小享,回復(fù)“ICML”
免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課
1.Scaling Vision Transformers to 22 Billion Parameters
這篇論文總結(jié)了訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器模型的方法,提出了一種對(duì) 22B 參數(shù) VIT(VIT-22B)高效且穩(wěn)定的培訓(xùn)的配方,并在所得模型上進(jìn)行了多種實(shí)驗(yàn)。
主要貢獻(xiàn):
轉(zhuǎn)換器架構(gòu)已經(jīng)帶來(lái)語(yǔ)言模型顯著能力提升。最好的語(yǔ)言模型包含上百億的參數(shù)。視覺(jué)轉(zhuǎn)換器將相同架構(gòu)帶到圖像和視頻建模,但尚未成功擴(kuò)展到相同程度;最大的視覺(jué)轉(zhuǎn)換器只有400億參數(shù)。
作者提出訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器(ViT-22B)的高效穩(wěn)定方法。
在下游任務(wù)上的評(píng)估(使用固化特征的輕量線性模型)表明,與模型規(guī)模增長(zhǎng)效能也在增加。
作者還觀察到規(guī)模增加帶來(lái)其他好處:公平性和效能之間的更好權(quán)衡、在形狀/紋理偏置方面符合人類(lèi)視覺(jué)感知的state-of-the-art 對(duì)齊、性能提升。
ViT-22B表明視覺(jué)也可以通過(guò)"LLM方式"擴(kuò)展規(guī)模,并向該目標(biāo)邁出關(guān)鍵一步。
規(guī)模增加還帶來(lái)提高公平性與效能之間權(quán)衡、更好模擬人類(lèi)視覺(jué)感知以及改善魯棒性等許多好處。這表明視覺(jué)可以通過(guò)類(lèi)似語(yǔ)言模型的方式擴(kuò)大規(guī)模,ViT-22B是一個(gè)重要的里程碑。

2.Specializing Smaller Language Models towards Multi-Step Reasoning
這篇文章總結(jié)了如何從更大模型(GPT-3.5) distillation 到更小模型(T5),專(zhuān)注于特定任務(wù)。
主要貢獻(xiàn):
作者利用多步數(shù)學(xué)推理作為實(shí)驗(yàn)場(chǎng)景,表明較大模型(≥175B參數(shù))具有強(qiáng)大的建模能力,可以完成廣泛任務(wù)。
小模型(≤11B參數(shù))具有有限能力,但如果專(zhuān)注于特定任務(wù),效果可以有明顯提升。
作者提出模型專(zhuān)門(mén)化,專(zhuān)注模型能力于特定任務(wù)。
作者表明:實(shí)現(xiàn)多個(gè)任務(wù)的平衡是一個(gè)微妙問(wèn)題,單個(gè)任務(wù)上的提升可能破壞其他任務(wù);但通過(guò)有意犧牲廣度,作者清楚地改善了10B以下多種模型尺寸,有較好的多步數(shù)學(xué)推理能力。
進(jìn)一步討論了幾個(gè)設(shè)計(jì)選擇如數(shù)據(jù)格式組合和起始模型點(diǎn)來(lái)改善泛化。
該實(shí)踐和發(fā)現(xiàn)可以作為在LLMs設(shè)置的新研究范式下得到更小模型專(zhuān)門(mén)化的重要嘗試。
通過(guò)專(zhuān)注于特定任務(wù),小模型可以有明顯提升。這是一個(gè)有趣的方向,為在LLMs范式下得到更小模型專(zhuān)門(mén)化踏出重要一步。

3.Pretraining Language Models with Human Preferences
本論文概括了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方法。
主要貢獻(xiàn):
語(yǔ)言模型?;诖罅繑?shù)據(jù)預(yù)訓(xùn)練,但其中數(shù)據(jù)可能包含生成后違反人類(lèi)偏好的內(nèi)容(虛假、冒犯、敏感信息等)。
作者探索了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方式,使其生成與人類(lèi)偏好一致的文本。
在3個(gè)任務(wù)上對(duì)5種用人類(lèi)反饋預(yù)訓(xùn)練的目標(biāo)進(jìn)行對(duì)比,研究它們影響預(yù)訓(xùn)練模型的側(cè)重點(diǎn)和能力。
條件訓(xùn)練(基于詞的人類(lèi)偏好分?jǐn)?shù)學(xué)習(xí)條件概率分布)是一種最優(yōu)解。
條件訓(xùn)練可使不符偏好的文本減少一量級(jí),在無(wú)提示和對(duì)抗提示生成下效果一致。
條件訓(xùn)練也保持標(biāo)準(zhǔn)預(yù)訓(xùn)練模型下游任務(wù)效能,即使在特定任務(wù)微調(diào)后仍然有效。
與標(biāo)準(zhǔn)預(yù)訓(xùn)練后在特定任務(wù)微調(diào)時(shí)使用人類(lèi)反饋相比,用人類(lèi)反饋預(yù)訓(xùn)練可更好滿足偏好。
結(jié)果說(shuō)明,相比模仿學(xué)習(xí),預(yù)訓(xùn)練時(shí)應(yīng)考慮人類(lèi)偏好,以避免后續(xù)不想要的行為。
4.Whose Opinions Do Language Models Reflect?
作者總結(jié)了一種量化語(yǔ)言模型觀點(diǎn)的框架。
主要貢獻(xiàn):
語(yǔ)言模型越來(lái)越用于開(kāi)放上下文,其反應(yīng)的觀點(diǎn)對(duì)用戶滿意度和社會(huì)觀點(diǎn)形成有重大影響。
作者提出一種量化框架來(lái)調(diào)查語(yǔ)言模型觀點(diǎn) - 使用高質(zhì)量的民意調(diào)查和相應(yīng)的人類(lèi)反應(yīng)。
使用該框架,作者創(chuàng)建 OpinionsQA 數(shù)據(jù)集,評(píng)估60個(gè)美國(guó)人口群體在 abortion 到 automation 范圍話題上語(yǔ)言模型觀點(diǎn)的一致性。
作者發(fā)現(xiàn)當(dāng)前語(yǔ)言模型和美國(guó)人口群體觀點(diǎn)存在重大不一致性:與美國(guó)民主黨和共和黨在氣候變化上的分歧相當(dāng)。
即使明確驅(qū)動(dòng)語(yǔ)言模型朝特定人口群體,不一致性仍存在。
分析不僅證實(shí)某些語(yǔ)言模型存在偏左趨勢(shì),而且表明當(dāng)前語(yǔ)言模型 poorly reflected 65+ 年齡和守寡人口群體觀點(diǎn)。

5.Mimetic Initialization of Self-Attention Layers
這篇論文總結(jié)了一種使用學(xué)習(xí)線索初始化Transformer自注意力權(quán)重的技巧。
主要貢獻(xiàn):
訓(xùn)練小數(shù)據(jù)集的Transformer存在困難,通常使用預(yù)訓(xùn)練模型作為起點(diǎn)。
作者分析預(yù)訓(xùn)練Transformer權(quán)重,(特別是用于視覺(jué)),嘗試找到這一差異的原因。
初始化自注意力權(quán)重"看起來(lái)"更像預(yù)訓(xùn)練權(quán)重,可以更快更高的準(zhǔn)確度訓(xùn)練基本的Transformer,特別在CIFAR-10和ImageNet分類(lèi)這樣的視覺(jué)任務(wù)中。
作者的初始化方案將查詢和鍵值的乘積設(shè)置為近似單位矩陣,將值和投影權(quán)重的乘積設(shè)置為近似負(fù)單位矩陣。
由于這模擬了我們?cè)陬A(yù)訓(xùn)練Transformer中看到的模式,作者稱(chēng)該技巧為"模仿初始化"。
實(shí)驗(yàn)證明這一簡(jiǎn)單技巧可以有效地訓(xùn)練Transformer,特別是在視覺(jué)任務(wù)上。這表明預(yù)訓(xùn)練Transformer的權(quán)重具有學(xué)習(xí)線索可供提取。

掃碼添加小享,回復(fù)“ICML”
免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課
6.Cross-Modal Fine-Tuning: Align then Refine
作者提出了一種跨模態(tài)微調(diào)大規(guī)模預(yù)訓(xùn)練模型的框架ORCA。

主要貢獻(xiàn):
微調(diào)大規(guī)模預(yù)訓(xùn)練模型帶來(lái)了視覺(jué)和自然語(yǔ)言處理等模態(tài)的重大進(jìn)步。但由于缺少相關(guān)的預(yù)訓(xùn)練模型,許多其他模態(tài)沒(méi)有獲得類(lèi)似的益處。
作者提出ORCA,一種泛模態(tài)微調(diào)框架,擴(kuò)展單個(gè)大規(guī)模預(yù)訓(xùn)練模型到多種模態(tài)的適用性。
ORCA 通過(guò)"對(duì)齊-微調(diào)"工作流來(lái)適應(yīng)目標(biāo)任務(wù):給予目標(biāo)輸入,ORCA 首先學(xué)習(xí)一個(gè)嵌入網(wǎng)絡(luò),使嵌入特征分布與預(yù)訓(xùn)練模態(tài)一致。
然后在嵌入數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練模型,利用模態(tài)間共享的知識(shí)。
大量實(shí)驗(yàn)表明ORCA在3個(gè)基準(zhǔn)上獲得state-of-the-art結(jié)果,包含來(lái)自12個(gè)模態(tài)的60多個(gè)數(shù)據(jù)集,超過(guò)廣泛范圍的人設(shè)計(jì)、自動(dòng)機(jī)器學(xué)習(xí)、通用和特定任務(wù)方法。
作者強(qiáng)調(diào)數(shù)據(jù)對(duì)齊對(duì)性能的重要性,并展示ORCA在數(shù)據(jù)有限情況下的效用。
7.Evaluating Self-Supervised Learning via Risk Decomposition
作者提出了一種用于分析自監(jiān)督學(xué)習(xí)模型設(shè)計(jì)選擇的風(fēng)險(xiǎn)分解方法。
主要貢獻(xiàn):
自監(jiān)督學(xué)習(xí)方法在設(shè)計(jì)上存在很多選擇,如架構(gòu)、數(shù)據(jù)提升、預(yù)訓(xùn)練數(shù)據(jù)等。但自監(jiān)督學(xué)習(xí)通常只用一個(gè)ImageNet線性探針指標(biāo)來(lái)評(píng)估。為了彌補(bǔ)此不足,作者提出自監(jiān)督學(xué)習(xí)風(fēng)險(xiǎn)分解,它泛化了經(jīng)典監(jiān)督學(xué)習(xí)抽象-估計(jì)分解,考慮表示學(xué)習(xí)步驟產(chǎn)生的錯(cuò)誤。
作者的分解包含4個(gè)錯(cuò)誤成分:抽象化、表示可用性、探針?lè)夯?、編碼器泛化。作者提供每個(gè)成分的有效估計(jì)器,并使用它們分析30種設(shè)計(jì)選擇影響169個(gè)自監(jiān)督視覺(jué)模型在ImageNet上的結(jié)果。
作者的分析給出寶貴的自監(jiān)督設(shè)計(jì)及使用建議。例如,它強(qiáng)調(diào)主要錯(cuò)誤來(lái)源,并展示如何通過(guò)折衷不同錯(cuò)誤成分改進(jìn)特定場(chǎng)景(全樣本vs少樣本)下的自監(jiān)督學(xué)習(xí)。
8.Delving into Noisy Label Detection with Clean Data
論文提出了一種利用少量干凈數(shù)據(jù)的方法來(lái)提高混亂標(biāo)簽檢測(cè)的性能。
主要貢獻(xiàn):
混亂標(biāo)簽檢測(cè)是學(xué)習(xí)混亂標(biāo)簽的數(shù)據(jù)的一個(gè)關(guān)鍵要素。許多先前的工作都假設(shè)在混亂標(biāo)簽檢測(cè)的上下文中,沒(méi)有標(biāo)簽來(lái)源是干凈的。本文放松這個(gè)假設(shè),假設(shè)訓(xùn)練數(shù)據(jù)的一個(gè)小子集是干凈的,這使混亂標(biāo)簽檢測(cè)性能有了顯著改進(jìn)。
具體來(lái)說(shuō),作者提出了一個(gè)新框架,用多重假設(shè)檢驗(yàn)的問(wèn)題形式來(lái)利用干凈數(shù)據(jù)進(jìn)行混亂標(biāo)簽檢測(cè)。
作者提出BHN,一種簡(jiǎn)單有效的混亂標(biāo)簽檢測(cè)方法,它將Benjamini-Hochberg(BH)過(guò)程整合到深層神經(jīng)網(wǎng)絡(luò)中。
BHN在CIFAR-10上在假陽(yáng)性率(FDR)上超過(guò)基線28.48%,在F1指標(biāo)上超過(guò)18.99%,取得state-of-the-art成績(jī)。
進(jìn)一步的模糊研究進(jìn)一步證實(shí)了BHN的優(yōu)越性。
9.ODS: Test-Time Adaptation in the Presence of Open-World Data Shift
作者提出了一種名為“Test-time adaptation with Open-world Data Shift”(AODS)的新問(wèn)題設(shè)置。
主要貢獻(xiàn):
測(cè)試時(shí)域適應(yīng)是在沒(méi)有源數(shù)據(jù)的情況下,使源模型適應(yīng)測(cè)試數(shù)據(jù)分布轉(zhuǎn)換。在過(guò)去十年,大量算法關(guān)注特征空間分布變化(特征分布Dt(X)不同于源數(shù)據(jù))。然而在實(shí)際應(yīng)用場(chǎng)景中,標(biāo)簽分布變化Dt(Y)也是必要考慮的,而這一點(diǎn)尚未充分探索。
為了解決這個(gè)問(wèn)題,作者提出一個(gè)新的設(shè)置:測(cè)試時(shí)域適應(yīng)開(kāi)放世界數(shù)據(jù)轉(zhuǎn)換(AODS)。
其目標(biāo)是同時(shí)適應(yīng)測(cè)試階段的特征空間和標(biāo)簽分布轉(zhuǎn)換。
作者首先分析分類(lèi)錯(cuò)誤和分布轉(zhuǎn)換的關(guān)系。
基于此,提出ODS框架,分離混合的分布轉(zhuǎn)換,然后分別處理特征空間和標(biāo)簽分布轉(zhuǎn)換。
在不同類(lèi)型分布轉(zhuǎn)換的benchmark上實(shí)驗(yàn),結(jié)果表明研究者的方法優(yōu)于現(xiàn)有方法。
而且ODS適合許多測(cè)試時(shí)域適應(yīng)算法。

掃碼添加小享,回復(fù)“ICML”
免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課