最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

ICML 2023最新大模型 Oral 論文分享(PDF+代碼)

2023-07-07 17:50 作者:深度之眼官方賬號(hào)  | 我要投稿

機(jī)器學(xué)習(xí)頂會(huì)ICML 2023于4月放榜,共有6538份論文提交,1827篇論文被接收,錄用率27.9%,達(dá)歷史之最。因?yàn)榻衲晟墒紸I的火爆,在提交的論文中,與大模型相關(guān)的論文數(shù)目也非??捎^。

今天我就和大家分享9篇 ICML 2023 中大模型和魯棒性相關(guān) Oral 文章。

掃碼添加小享,回復(fù)“ICML

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

1.Scaling Vision Transformers to 22 Billion Parameters

這篇論文總結(jié)了訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器模型的方法,提出了一種對(duì) 22B 參數(shù) VIT(VIT-22B)高效且穩(wěn)定的培訓(xùn)的配方,并在所得模型上進(jìn)行了多種實(shí)驗(yàn)。

主要貢獻(xiàn):

轉(zhuǎn)換器架構(gòu)已經(jīng)帶來(lái)語(yǔ)言模型顯著能力提升。最好的語(yǔ)言模型包含上百億的參數(shù)。視覺(jué)轉(zhuǎn)換器將相同架構(gòu)帶到圖像和視頻建模,但尚未成功擴(kuò)展到相同程度;最大的視覺(jué)轉(zhuǎn)換器只有400億參數(shù)。

  • 作者提出訓(xùn)練2.2萬(wàn)億參數(shù)視覺(jué)轉(zhuǎn)換器(ViT-22B)的高效穩(wěn)定方法。

  • 在下游任務(wù)上的評(píng)估(使用固化特征的輕量線性模型)表明,與模型規(guī)模增長(zhǎng)效能也在增加。

  • 作者還觀察到規(guī)模增加帶來(lái)其他好處:公平性和效能之間的更好權(quán)衡、在形狀/紋理偏置方面符合人類(lèi)視覺(jué)感知的state-of-the-art 對(duì)齊、性能提升。

  • ViT-22B表明視覺(jué)也可以通過(guò)"LLM方式"擴(kuò)展規(guī)模,并向該目標(biāo)邁出關(guān)鍵一步。

規(guī)模增加還帶來(lái)提高公平性與效能之間權(quán)衡、更好模擬人類(lèi)視覺(jué)感知以及改善魯棒性等許多好處。這表明視覺(jué)可以通過(guò)類(lèi)似語(yǔ)言模型的方式擴(kuò)大規(guī)模,ViT-22B是一個(gè)重要的里程碑。

2.Specializing Smaller Language Models towards Multi-Step Reasoning

這篇文章總結(jié)了如何從更大模型(GPT-3.5) distillation 到更小模型(T5),專(zhuān)注于特定任務(wù)。

主要貢獻(xiàn):

  • 作者利用多步數(shù)學(xué)推理作為實(shí)驗(yàn)場(chǎng)景,表明較大模型(≥175B參數(shù))具有強(qiáng)大的建模能力,可以完成廣泛任務(wù)。

  • 小模型(≤11B參數(shù))具有有限能力,但如果專(zhuān)注于特定任務(wù),效果可以有明顯提升。

  • 作者提出模型專(zhuān)門(mén)化,專(zhuān)注模型能力于特定任務(wù)。

  • 作者表明:實(shí)現(xiàn)多個(gè)任務(wù)的平衡是一個(gè)微妙問(wèn)題,單個(gè)任務(wù)上的提升可能破壞其他任務(wù);但通過(guò)有意犧牲廣度,作者清楚地改善了10B以下多種模型尺寸,有較好的多步數(shù)學(xué)推理能力。

  • 進(jìn)一步討論了幾個(gè)設(shè)計(jì)選擇如數(shù)據(jù)格式組合和起始模型點(diǎn)來(lái)改善泛化。

  • 該實(shí)踐和發(fā)現(xiàn)可以作為在LLMs設(shè)置的新研究范式下得到更小模型專(zhuān)門(mén)化的重要嘗試。

通過(guò)專(zhuān)注于特定任務(wù),小模型可以有明顯提升。這是一個(gè)有趣的方向,為在LLMs范式下得到更小模型專(zhuān)門(mén)化踏出重要一步。

3.Pretraining Language Models with Human Preferences

本論文概括了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方法。

主要貢獻(xiàn):

  • 語(yǔ)言模型?;诖罅繑?shù)據(jù)預(yù)訓(xùn)練,但其中數(shù)據(jù)可能包含生成后違反人類(lèi)偏好的內(nèi)容(虛假、冒犯、敏感信息等)。

  • 作者探索了一種用人類(lèi)反饋預(yù)訓(xùn)練語(yǔ)言模型的方式,使其生成與人類(lèi)偏好一致的文本。

  • 在3個(gè)任務(wù)上對(duì)5種用人類(lèi)反饋預(yù)訓(xùn)練的目標(biāo)進(jìn)行對(duì)比,研究它們影響預(yù)訓(xùn)練模型的側(cè)重點(diǎn)和能力。

  • 條件訓(xùn)練(基于詞的人類(lèi)偏好分?jǐn)?shù)學(xué)習(xí)條件概率分布)是一種最優(yōu)解。

  • 條件訓(xùn)練可使不符偏好的文本減少一量級(jí),在無(wú)提示和對(duì)抗提示生成下效果一致。

  • 條件訓(xùn)練也保持標(biāo)準(zhǔn)預(yù)訓(xùn)練模型下游任務(wù)效能,即使在特定任務(wù)微調(diào)后仍然有效。

  • 與標(biāo)準(zhǔn)預(yù)訓(xùn)練后在特定任務(wù)微調(diào)時(shí)使用人類(lèi)反饋相比,用人類(lèi)反饋預(yù)訓(xùn)練可更好滿足偏好。

結(jié)果說(shuō)明,相比模仿學(xué)習(xí),預(yù)訓(xùn)練時(shí)應(yīng)考慮人類(lèi)偏好,以避免后續(xù)不想要的行為。

4.Whose Opinions Do Language Models Reflect?

作者總結(jié)了一種量化語(yǔ)言模型觀點(diǎn)的框架。

主要貢獻(xiàn):

  • 語(yǔ)言模型越來(lái)越用于開(kāi)放上下文,其反應(yīng)的觀點(diǎn)對(duì)用戶滿意度和社會(huì)觀點(diǎn)形成有重大影響。

  • 作者提出一種量化框架來(lái)調(diào)查語(yǔ)言模型觀點(diǎn) - 使用高質(zhì)量的民意調(diào)查和相應(yīng)的人類(lèi)反應(yīng)。

  • 使用該框架,作者創(chuàng)建 OpinionsQA 數(shù)據(jù)集,評(píng)估60個(gè)美國(guó)人口群體在 abortion 到 automation 范圍話題上語(yǔ)言模型觀點(diǎn)的一致性。

  • 作者發(fā)現(xiàn)當(dāng)前語(yǔ)言模型和美國(guó)人口群體觀點(diǎn)存在重大不一致性:與美國(guó)民主黨和共和黨在氣候變化上的分歧相當(dāng)。

  • 即使明確驅(qū)動(dòng)語(yǔ)言模型朝特定人口群體,不一致性仍存在。

  • 分析不僅證實(shí)某些語(yǔ)言模型存在偏左趨勢(shì),而且表明當(dāng)前語(yǔ)言模型 poorly reflected 65+ 年齡和守寡人口群體觀點(diǎn)。

5.Mimetic Initialization of Self-Attention Layers

這篇論文總結(jié)了一種使用學(xué)習(xí)線索初始化Transformer自注意力權(quán)重的技巧。

主要貢獻(xiàn):

  • 訓(xùn)練小數(shù)據(jù)集的Transformer存在困難,通常使用預(yù)訓(xùn)練模型作為起點(diǎn)。

  • 作者分析預(yù)訓(xùn)練Transformer權(quán)重,(特別是用于視覺(jué)),嘗試找到這一差異的原因。

  • 初始化自注意力權(quán)重"看起來(lái)"更像預(yù)訓(xùn)練權(quán)重,可以更快更高的準(zhǔn)確度訓(xùn)練基本的Transformer,特別在CIFAR-10和ImageNet分類(lèi)這樣的視覺(jué)任務(wù)中。

  • 作者的初始化方案將查詢和鍵值的乘積設(shè)置為近似單位矩陣,將值和投影權(quán)重的乘積設(shè)置為近似負(fù)單位矩陣。

  • 由于這模擬了我們?cè)陬A(yù)訓(xùn)練Transformer中看到的模式,作者稱(chēng)該技巧為"模仿初始化"。

實(shí)驗(yàn)證明這一簡(jiǎn)單技巧可以有效地訓(xùn)練Transformer,特別是在視覺(jué)任務(wù)上。這表明預(yù)訓(xùn)練Transformer的權(quán)重具有學(xué)習(xí)線索可供提取。

掃碼添加小享,回復(fù)“ICML

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

6.Cross-Modal Fine-Tuning: Align then Refine

作者提出了一種跨模態(tài)微調(diào)大規(guī)模預(yù)訓(xùn)練模型的框架ORCA。

主要貢獻(xiàn):

  • 微調(diào)大規(guī)模預(yù)訓(xùn)練模型帶來(lái)了視覺(jué)和自然語(yǔ)言處理等模態(tài)的重大進(jìn)步。但由于缺少相關(guān)的預(yù)訓(xùn)練模型,許多其他模態(tài)沒(méi)有獲得類(lèi)似的益處。

  • 作者提出ORCA,一種泛模態(tài)微調(diào)框架,擴(kuò)展單個(gè)大規(guī)模預(yù)訓(xùn)練模型到多種模態(tài)的適用性。

  • ORCA 通過(guò)"對(duì)齊-微調(diào)"工作流來(lái)適應(yīng)目標(biāo)任務(wù):給予目標(biāo)輸入,ORCA 首先學(xué)習(xí)一個(gè)嵌入網(wǎng)絡(luò),使嵌入特征分布與預(yù)訓(xùn)練模態(tài)一致。

  • 然后在嵌入數(shù)據(jù)上微調(diào)預(yù)訓(xùn)練模型,利用模態(tài)間共享的知識(shí)。

  • 大量實(shí)驗(yàn)表明ORCA在3個(gè)基準(zhǔn)上獲得state-of-the-art結(jié)果,包含來(lái)自12個(gè)模態(tài)的60多個(gè)數(shù)據(jù)集,超過(guò)廣泛范圍的人設(shè)計(jì)、自動(dòng)機(jī)器學(xué)習(xí)、通用和特定任務(wù)方法。

作者強(qiáng)調(diào)數(shù)據(jù)對(duì)齊對(duì)性能的重要性,并展示ORCA在數(shù)據(jù)有限情況下的效用。

7.Evaluating Self-Supervised Learning via Risk Decomposition

作者提出了一種用于分析自監(jiān)督學(xué)習(xí)模型設(shè)計(jì)選擇的風(fēng)險(xiǎn)分解方法。

主要貢獻(xiàn):

自監(jiān)督學(xué)習(xí)方法在設(shè)計(jì)上存在很多選擇,如架構(gòu)、數(shù)據(jù)提升、預(yù)訓(xùn)練數(shù)據(jù)等。但自監(jiān)督學(xué)習(xí)通常只用一個(gè)ImageNet線性探針指標(biāo)來(lái)評(píng)估。為了彌補(bǔ)此不足,作者提出自監(jiān)督學(xué)習(xí)風(fēng)險(xiǎn)分解,它泛化了經(jīng)典監(jiān)督學(xué)習(xí)抽象-估計(jì)分解,考慮表示學(xué)習(xí)步驟產(chǎn)生的錯(cuò)誤。

作者的分解包含4個(gè)錯(cuò)誤成分:抽象化、表示可用性、探針?lè)夯?、編碼器泛化。作者提供每個(gè)成分的有效估計(jì)器,并使用它們分析30種設(shè)計(jì)選擇影響169個(gè)自監(jiān)督視覺(jué)模型在ImageNet上的結(jié)果。

作者的分析給出寶貴的自監(jiān)督設(shè)計(jì)及使用建議。例如,它強(qiáng)調(diào)主要錯(cuò)誤來(lái)源,并展示如何通過(guò)折衷不同錯(cuò)誤成分改進(jìn)特定場(chǎng)景(全樣本vs少樣本)下的自監(jiān)督學(xué)習(xí)。

8.Delving into Noisy Label Detection with Clean Data

論文提出了一種利用少量干凈數(shù)據(jù)的方法來(lái)提高混亂標(biāo)簽檢測(cè)的性能。

主要貢獻(xiàn):

混亂標(biāo)簽檢測(cè)是學(xué)習(xí)混亂標(biāo)簽的數(shù)據(jù)的一個(gè)關(guān)鍵要素。許多先前的工作都假設(shè)在混亂標(biāo)簽檢測(cè)的上下文中,沒(méi)有標(biāo)簽來(lái)源是干凈的。本文放松這個(gè)假設(shè),假設(shè)訓(xùn)練數(shù)據(jù)的一個(gè)小子集是干凈的,這使混亂標(biāo)簽檢測(cè)性能有了顯著改進(jìn)。

  • 具體來(lái)說(shuō),作者提出了一個(gè)新框架,用多重假設(shè)檢驗(yàn)的問(wèn)題形式來(lái)利用干凈數(shù)據(jù)進(jìn)行混亂標(biāo)簽檢測(cè)。

  • 作者提出BHN,一種簡(jiǎn)單有效的混亂標(biāo)簽檢測(cè)方法,它將Benjamini-Hochberg(BH)過(guò)程整合到深層神經(jīng)網(wǎng)絡(luò)中。

  • BHN在CIFAR-10上在假陽(yáng)性率(FDR)上超過(guò)基線28.48%,在F1指標(biāo)上超過(guò)18.99%,取得state-of-the-art成績(jī)。

  • 進(jìn)一步的模糊研究進(jìn)一步證實(shí)了BHN的優(yōu)越性。

9.ODS: Test-Time Adaptation in the Presence of Open-World Data Shift

作者提出了一種名為“Test-time adaptation with Open-world Data Shift”(AODS)的新問(wèn)題設(shè)置。

主要貢獻(xiàn):

測(cè)試時(shí)域適應(yīng)是在沒(méi)有源數(shù)據(jù)的情況下,使源模型適應(yīng)測(cè)試數(shù)據(jù)分布轉(zhuǎn)換。在過(guò)去十年,大量算法關(guān)注特征空間分布變化(特征分布Dt(X)不同于源數(shù)據(jù))。然而在實(shí)際應(yīng)用場(chǎng)景中,標(biāo)簽分布變化Dt(Y)也是必要考慮的,而這一點(diǎn)尚未充分探索。

為了解決這個(gè)問(wèn)題,作者提出一個(gè)新的設(shè)置:測(cè)試時(shí)域適應(yīng)開(kāi)放世界數(shù)據(jù)轉(zhuǎn)換(AODS)。

  • 其目標(biāo)是同時(shí)適應(yīng)測(cè)試階段的特征空間和標(biāo)簽分布轉(zhuǎn)換。

  • 作者首先分析分類(lèi)錯(cuò)誤和分布轉(zhuǎn)換的關(guān)系。

  • 基于此,提出ODS框架,分離混合的分布轉(zhuǎn)換,然后分別處理特征空間和標(biāo)簽分布轉(zhuǎn)換。

  • 在不同類(lèi)型分布轉(zhuǎn)換的benchmark上實(shí)驗(yàn),結(jié)果表明研究者的方法優(yōu)于現(xiàn)有方法。

  • 而且ODS適合許多測(cè)試時(shí)域適應(yīng)算法。

掃碼添加小享,回復(fù)“ICML

免費(fèi)領(lǐng)取全部論文+代碼

附贈(zèng)業(yè)內(nèi)大佬主講的大模型前沿論文公開(kāi)課

ICML 2023最新大模型 Oral 論文分享(PDF+代碼)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
拜城县| 象山县| 荥阳市| 论坛| 靖宇县| 松江区| 万州区| 阿巴嘎旗| 大竹县| 铜陵市| 化州市| 云和县| 湘阴县| 东至县| 沙田区| 清苑县| 岳普湖县| 广元市| 罗源县| 临城县| 榆社县| 莱西市| 连江县| 鹤峰县| 元阳县| 栾城县| 大田县| 清河县| 马尔康县| 新巴尔虎右旗| 澄迈县| 襄城县| 普陀区| 武夷山市| 扎鲁特旗| 甘孜| 桐庐县| 阿巴嘎旗| 澎湖县| 英山县| 印江|