散文網(wǎng) » 科技 »學(xué)習(xí) » ICML 2023最新大模型 Oral 論文分享（PDF+代碼）

ICML 2023最新大模型 Oral 論文分享（PDF+代碼）

2023-07-07 17:50 作者:深度之眼官方賬號(hào) 0人讀過(guò) | 我要投稿

機(jī)器學(xué)習(xí)頂會(huì)ICML 2023于4月放榜，共有6538份論文提交，1827篇論文被接收，錄用率27.9%，達(dá)歷史之最。因?yàn)榻衲晟墒紸I的火爆，在提交的論文中，與大模型相關(guān)的論文數(shù)目也非?？捎^。

今天我就和大家分享9篇 ICML 2023 中大模型和魯棒性相關(guān) Oral 文章。

掃碼添加小享，回復(fù)“ICML”

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

1.Scaling Vision Transformers to 22 Billion Parameters

這篇論文總結(jié)了訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器模型的方法，提出了一種對(duì) 22B 參數(shù) VIT（VIT-22B）高效且穩(wěn)定的培訓(xùn)的配方，并在所得模型上進(jìn)行了多種實(shí)驗(yàn)。

主要貢獻(xiàn):

轉(zhuǎn)換器架構(gòu)已經(jīng)帶來(lái)語(yǔ)言模型顯著能力提升。最好的語(yǔ)言模型包含上百億的參數(shù)。視覺(jué)轉(zhuǎn)換器將相同架構(gòu)帶到圖像和視頻建模，但尚未成功擴(kuò)展到相同程度；最大的視覺(jué)轉(zhuǎn)換器只有400億參數(shù)。

作者提出訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器(ViT-22B)的高效穩(wěn)定方法。
在下游任務(wù)上的評(píng)估(使用固化特征的輕量線性模型)表明，與模型規(guī)模增長(zhǎng)效能也在增加。
作者還觀察到規(guī)模增加帶來(lái)其他好處：公平性和效能之間的更好權(quán)衡、在形狀/紋理偏置方面符合人類(lèi)視覺(jué)感知的state-of-the-art 對(duì)齊、性能提升。
ViT-22B表明視覺(jué)也可以通過(guò)"LLM方式"擴(kuò)展規(guī)模，并向該目標(biāo)邁出關(guān)鍵一步。

規(guī)模增加還帶來(lái)提高公平性與效能之間權(quán)衡、更好模擬人類(lèi)視覺(jué)感知以及改善魯棒性等許多好處。這表明視覺(jué)可以通過(guò)類(lèi)似語(yǔ)言模型的方式擴(kuò)大規(guī)模，ViT-22B是一個(gè)重要的里程碑。

2.Specializing Smaller Language Models towards Multi-Step Reasoning

這篇文章總結(jié)了如何從更大模型(GPT-3.5) distillation 到更小模型(T5)，專(zhuān)注于特定任務(wù)。

主要貢獻(xiàn):

作者利用多步數(shù)學(xué)推理作為實(shí)驗(yàn)場(chǎng)景，表明較大模型(≥175B參數(shù))具有強(qiáng)大的建模能力，可以完成廣泛任務(wù)。
小模型(≤11B參數(shù))具有有限能力，但如果專(zhuān)注于特定任務(wù)，效果可以有明顯提升。
作者提出模型專(zhuān)門(mén)化，專(zhuān)注模型能力于特定任務(wù)。
作者表明：實(shí)現(xiàn)多個(gè)任務(wù)的平衡是一個(gè)微妙問(wèn)題，單個(gè)任務(wù)上的提升可能破壞其他任務(wù)；但通過(guò)有意犧牲廣度，作者清楚地改善了10B以下多種模型尺寸，有較好的多步數(shù)學(xué)推理能力。
進(jìn)一步討論了幾個(gè)設(shè)計(jì)選擇如數(shù)據(jù)格式組合和起始模型點(diǎn)來(lái)改善泛化。
該實(shí)踐和發(fā)現(xiàn)可以作為在LLMs設(shè)置的新研究范式下得到更小模型專(zhuān)門(mén)化的重要嘗試。

通過(guò)專(zhuān)注于特定任務(wù)，小模型可以有明顯提升。這是一個(gè)有趣的方向，為在LLMs范式下得到更小模型專(zhuān)門(mén)化踏出重要一步。

3.Pretraining Language Models with Human Preferences

本論文概括了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方法。

主要貢獻(xiàn):

語(yǔ)言模型?；诖罅繑?shù)據(jù)預(yù)訓(xùn)練，但其中數(shù)據(jù)可能包含生成后違反人類(lèi)偏好的內(nèi)容(虛假、冒犯、敏感信息等)。
作者探索了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方式，使其生成與人類(lèi)偏好一致的文本。
在3個(gè)任務(wù)上對(duì)5種用人類(lèi)反饋預(yù)訓(xùn)練的目標(biāo)進(jìn)行對(duì)比，研究它們影響預(yù)訓(xùn)練模型的側(cè)重點(diǎn)和能力。
條件訓(xùn)練(基于詞的人類(lèi)偏好分?jǐn)?shù)學(xué)習(xí)條件概率分布)是一種最優(yōu)解。
條件訓(xùn)練可使不符偏好的文本減少一量級(jí)，在無(wú)提示和對(duì)抗提示生成下效果一致。
條件訓(xùn)練也保持標(biāo)準(zhǔn)預(yù)訓(xùn)練模型下游任務(wù)效能，即使在特定任務(wù)微調(diào)后仍然有效。
與標(biāo)準(zhǔn)預(yù)訓(xùn)練后在特定任務(wù)微調(diào)時(shí)使用人類(lèi)反饋相比，用人類(lèi)反饋預(yù)訓(xùn)練可更好滿足偏好。

結(jié)果說(shuō)明，相比模仿學(xué)習(xí)，預(yù)訓(xùn)練時(shí)應(yīng)考慮人類(lèi)偏好，以避免后續(xù)不想要的行為。

4.Whose Opinions Do Language Models Reflect?

作者總結(jié)了一種量化語(yǔ)言模型觀點(diǎn)的框架。

主要貢獻(xiàn):

語(yǔ)言模型越來(lái)越用于開(kāi)放上下文，其反應(yīng)的觀點(diǎn)對(duì)用戶滿意度和社會(huì)觀點(diǎn)形成有重大影響。
作者提出一種量化框架來(lái)調(diào)查語(yǔ)言模型觀點(diǎn) - 使用高質(zhì)量的民意調(diào)查和相應(yīng)的人類(lèi)反應(yīng)。
使用該框架，作者創(chuàng)建 OpinionsQA 數(shù)據(jù)集，評(píng)估60個(gè)美國(guó)人口群體在 abortion 到 automation 范圍話題上語(yǔ)言模型觀點(diǎn)的一致性。
作者發(fā)現(xiàn)當(dāng)前語(yǔ)言模型和美國(guó)人口群體觀點(diǎn)存在重大不一致性：與美國(guó)民主黨和共和黨在氣候變化上的分歧相當(dāng)。
即使明確驅(qū)動(dòng)語(yǔ)言模型朝特定人口群體，不一致性仍存在。
分析不僅證實(shí)某些語(yǔ)言模型存在偏左趨勢(shì)，而且表明當(dāng)前語(yǔ)言模型 poorly reflected 65+ 年齡和守寡人口群體觀點(diǎn)。

5.Mimetic Initialization of Self-Attention Layers

這篇論文總結(jié)了一種使用學(xué)習(xí)線索初始化Transformer自注意力權(quán)重的技巧。

主要貢獻(xiàn):

訓(xùn)練小數(shù)據(jù)集的Transformer存在困難，通常使用預(yù)訓(xùn)練模型作為起點(diǎn)。
作者分析預(yù)訓(xùn)練Transformer權(quán)重，(特別是用于視覺(jué))，嘗試找到這一差異的原因。
初始化自注意力權(quán)重"看起來(lái)"更像預(yù)訓(xùn)練權(quán)重，可以更快更高的準(zhǔn)確度訓(xùn)練基本的Transformer，特別在CIFAR-10和ImageNet分類(lèi)這樣的視覺(jué)任務(wù)中。
作者的初始化方案將查詢和鍵值的乘積設(shè)置為近似單位矩陣，將值和投影權(quán)重的乘積設(shè)置為近似負(fù)單位矩陣。
由于這模擬了我們?cè)陬A(yù)訓(xùn)練Transformer中看到的模式，作者稱(chēng)該技巧為"模仿初始化"。

實(shí)驗(yàn)證明這一簡(jiǎn)單技巧可以有效地訓(xùn)練Transformer，特別是在視覺(jué)任務(wù)上。這表明預(yù)訓(xùn)練Transformer的權(quán)重具有學(xué)習(xí)線索可供提取。

掃碼添加小享，回復(fù)“ICML”

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

6.Cross-Modal Fine-Tuning: Align then Refine

作者提出了一種跨模態(tài)微調(diào)大規(guī)模預(yù)訓(xùn)練模型的框架ORCA。

主要貢獻(xiàn):

微調(diào)大規(guī)模預(yù)訓(xùn)練模型帶來(lái)了視覺(jué)和自然語(yǔ)言處理等模態(tài)的重大進(jìn)步。但由于缺少相關(guān)的預(yù)訓(xùn)練模型，許多其他模態(tài)沒(méi)有獲得類(lèi)似的益處。
作者提出ORCA，一種泛模態(tài)微調(diào)框架，擴(kuò)展單個(gè)大規(guī)模預(yù)訓(xùn)練模型到多種模態(tài)的適用性。
ORCA 通過(guò)"對(duì)齊-微調(diào)"工作流來(lái)適應(yīng)目標(biāo)任務(wù)：給予目標(biāo)輸入，ORCA 首先學(xué)習(xí)一個(gè)嵌入網(wǎng)絡(luò)，使嵌入特征分布與預(yù)訓(xùn)練模態(tài)一致。
然后在嵌入數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練模型，利用模態(tài)間共享的知識(shí)。
大量實(shí)驗(yàn)表明ORCA在3個(gè)基準(zhǔn)上獲得state-of-the-art結(jié)果，包含來(lái)自12個(gè)模態(tài)的60多個(gè)數(shù)據(jù)集，超過(guò)廣泛范圍的人設(shè)計(jì)、自動(dòng)機(jī)器學(xué)習(xí)、通用和特定任務(wù)方法。

作者強(qiáng)調(diào)數(shù)據(jù)對(duì)齊對(duì)性能的重要性,并展示ORCA在數(shù)據(jù)有限情況下的效用。

7.Evaluating Self-Supervised Learning via Risk Decomposition

作者提出了一種用于分析自監(jiān)督學(xué)習(xí)模型設(shè)計(jì)選擇的風(fēng)險(xiǎn)分解方法。

主要貢獻(xiàn):

自監(jiān)督學(xué)習(xí)方法在設(shè)計(jì)上存在很多選擇，如架構(gòu)、數(shù)據(jù)提升、預(yù)訓(xùn)練數(shù)據(jù)等。但自監(jiān)督學(xué)習(xí)通常只用一個(gè)ImageNet線性探針指標(biāo)來(lái)評(píng)估。為了彌補(bǔ)此不足，作者提出自監(jiān)督學(xué)習(xí)風(fēng)險(xiǎn)分解，它泛化了經(jīng)典監(jiān)督學(xué)習(xí)抽象-估計(jì)分解，考慮表示學(xué)習(xí)步驟產(chǎn)生的錯(cuò)誤。

作者的分解包含4個(gè)錯(cuò)誤成分：抽象化、表示可用性、探針?lè)夯?、編碼器泛化。作者提供每個(gè)成分的有效估計(jì)器，并使用它們分析30種設(shè)計(jì)選擇影響169個(gè)自監(jiān)督視覺(jué)模型在ImageNet上的結(jié)果。

作者的分析給出寶貴的自監(jiān)督設(shè)計(jì)及使用建議。例如，它強(qiáng)調(diào)主要錯(cuò)誤來(lái)源，并展示如何通過(guò)折衷不同錯(cuò)誤成分改進(jìn)特定場(chǎng)景(全樣本vs少樣本)下的自監(jiān)督學(xué)習(xí)。

8.Delving into Noisy Label Detection with Clean Data

論文提出了一種利用少量干凈數(shù)據(jù)的方法來(lái)提高混亂標(biāo)簽檢測(cè)的性能。

主要貢獻(xiàn):

混亂標(biāo)簽檢測(cè)是學(xué)習(xí)混亂標(biāo)簽的數(shù)據(jù)的一個(gè)關(guān)鍵要素。許多先前的工作都假設(shè)在混亂標(biāo)簽檢測(cè)的上下文中，沒(méi)有標(biāo)簽來(lái)源是干凈的。本文放松這個(gè)假設(shè)，假設(shè)訓(xùn)練數(shù)據(jù)的一個(gè)小子集是干凈的，這使混亂標(biāo)簽檢測(cè)性能有了顯著改進(jìn)。

具體來(lái)說(shuō)，作者提出了一個(gè)新框架，用多重假設(shè)檢驗(yàn)的問(wèn)題形式來(lái)利用干凈數(shù)據(jù)進(jìn)行混亂標(biāo)簽檢測(cè)。
作者提出BHN，一種簡(jiǎn)單有效的混亂標(biāo)簽檢測(cè)方法，它將Benjamini-Hochberg(BH)過(guò)程整合到深層神經(jīng)網(wǎng)絡(luò)中。
BHN在CIFAR-10上在假陽(yáng)性率(FDR)上超過(guò)基線28.48%，在F1指標(biāo)上超過(guò)18.99%，取得state-of-the-art成績(jī)。
進(jìn)一步的模糊研究進(jìn)一步證實(shí)了BHN的優(yōu)越性。

9.ODS: Test-Time Adaptation in the Presence of Open-World Data Shift

作者提出了一種名為“Test-time adaptation with Open-world Data Shift”（AODS）的新問(wèn)題設(shè)置。

主要貢獻(xiàn):

測(cè)試時(shí)域適應(yīng)是在沒(méi)有源數(shù)據(jù)的情況下，使源模型適應(yīng)測(cè)試數(shù)據(jù)分布轉(zhuǎn)換。在過(guò)去十年，大量算法關(guān)注特征空間分布變化(特征分布Dt(X)不同于源數(shù)據(jù))。然而在實(shí)際應(yīng)用場(chǎng)景中，標(biāo)簽分布變化Dt(Y)也是必要考慮的，而這一點(diǎn)尚未充分探索。

為了解決這個(gè)問(wèn)題，作者提出一個(gè)新的設(shè)置：測(cè)試時(shí)域適應(yīng)開(kāi)放世界數(shù)據(jù)轉(zhuǎn)換(AODS)。

其目標(biāo)是同時(shí)適應(yīng)測(cè)試階段的特征空間和標(biāo)簽分布轉(zhuǎn)換。
作者首先分析分類(lèi)錯(cuò)誤和分布轉(zhuǎn)換的關(guān)系。
基于此，提出ODS框架，分離混合的分布轉(zhuǎn)換，然后分別處理特征空間和標(biāo)簽分布轉(zhuǎn)換。
在不同類(lèi)型分布轉(zhuǎn)換的benchmark上實(shí)驗(yàn)，結(jié)果表明研究者的方法優(yōu)于現(xiàn)有方法。
而且ODS適合許多測(cè)試時(shí)域適應(yīng)算法。

掃碼添加小享，回復(fù)“ICML”

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

標(biāo)簽：機(jī)器學(xué)習(xí)大模型魯棒性 ICML