實(shí)時(shí)追蹤科研動(dòng)態(tài)丨7.25精選新論文,附ChatPaper綜述

作為科研人員,每天需要檢索和瀏覽大量的學(xué)術(shù)文獻(xiàn),以獲取最新的科技進(jìn)展和研究成果。然而,傳統(tǒng)的檢索和閱讀方式已經(jīng)無法滿足科研人的需求。
ChatPaper,一款集檢索、閱讀、知識(shí)問答于一體的文獻(xiàn)知識(shí)工具。幫助你快提高檢索、閱讀論文效率,獲取最新領(lǐng)域研究動(dòng)態(tài),讓科研工作更加游刃有余。

結(jié)合前沿動(dòng)態(tài)訂閱功能,精選arXiv當(dāng)日熱門新論文,形成論文綜述,讓大家更加快速了解前沿動(dòng)態(tài)。
如果想要對(duì)某篇論文進(jìn)行深入對(duì)話,可以直接復(fù)制論文鏈接到瀏覽器上或者直達(dá)ChatPaper頁面:https://www.aminer.cn/chat/g/
2023年7月25日精選新論文列表:
1.Evaluating the Ripple Effects of Knowledge Editing in Language Models
https://www.aminer.cn/pub/64bf49b13fda6d7f062822c1/
說明了在語言模型中進(jìn)行知識(shí)編輯時(shí)會(huì)出現(xiàn)錯(cuò)誤產(chǎn)生的問題?,F(xiàn)有的編輯方法主要關(guān)注是否成功注入一個(gè)個(gè)體事實(shí),并且其他主題的類似預(yù)測(cè)是否改變。然而,摘要認(rèn)為這種評(píng)估方法存在局限性,因?yàn)樽⑷胍粋€(gè)事實(shí)會(huì)引起“漣漪效應(yīng)”,即模型需要更新其他相關(guān)事實(shí)。為了解決這個(gè)問題,摘要提出了一種新的評(píng)估標(biāo)準(zhǔn),考慮編輯對(duì)相關(guān)事實(shí)的影響。根據(jù)這些標(biāo)準(zhǔn),摘要構(gòu)建了一個(gè)包含5K個(gè)實(shí)際編輯的診斷基準(zhǔn)“ripple”,捕捉了多種類型的漣漪效應(yīng)。摘要對(duì)著名的編輯方法在“ripple”上進(jìn)行評(píng)估,結(jié)果顯示當(dāng)前的方法不能對(duì)模型的知識(shí)引入一致的改變。此外,摘要發(fā)現(xiàn)在我們的基準(zhǔn)測(cè)試中,一個(gè)簡單的上下文編輯基線獲得了最好的分?jǐn)?shù),這表明模型編輯是一個(gè)有希望的研究方向。
2.3D-LLM: Injecting the 3D World into Large Language Models
https://www.aminer.cn/pub/64bf49b63fda6d7f062827a7/
論文提出了一個(gè)問題,即目前的大型語言模型(LLMs)和視覺語言模型(VLMs)在包含空間關(guān)系、適用性、物理學(xué)、布局等更豐富概念的三維物理世界中沒有根基。作者通過提出一種新的3D-LLMs模型,旨在將三維世界引入大型語言模型,以解決這個(gè)問題。這個(gè)模型可以接受三維點(diǎn)云及其特征作為輸入,執(zhí)行多種三維相關(guān)任務(wù),包括描述、密集描述、三維問答、任務(wù)分解、三維定位、三維輔助對(duì)話、導(dǎo)航等。通過使用設(shè)計(jì)的三種提示機(jī)制,作者能夠收集超過30萬個(gè)涵蓋這些任務(wù)的三維語言數(shù)據(jù)。為了高效地訓(xùn)練3D-LLMs模型,作者首先利用一個(gè)三維特征提取器從渲染的多視角圖像中獲取三維特征,然后使用二維VLMs模型作為背骨來訓(xùn)練3D-LLMs模型。引入三維定位機(jī)制后,3D-LLMs模型能夠更好地捕捉三維空間信息。在ScanQA數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的模型在比較基線模型時(shí)取得了更好的性能(例如,BLEU-1得分超過現(xiàn)有最先進(jìn)得分9%)。此外,對(duì)于3D描述、任務(wù)組合和三維輔助對(duì)話的實(shí)驗(yàn)表明,我們的模型優(yōu)于二維VLMs模型。定性實(shí)例還表明,我們的模型可以執(zhí)行超出現(xiàn)有LLMs和VLMs范圍的更多任務(wù)。
3.RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment
https://www.aminer.cn/pub/64bf49a33fda6d7f0628086a/
論文提出了一種名為RLCD的方法,用于通過對(duì)比蒸餾(contrast distillation)的方式,讓語言模型按照自然語言的原則進(jìn)行對(duì)齊,而無需使用人類反饋。RLCD通過使用對(duì)比正例和負(fù)例生成的模擬偏好對(duì)來訓(xùn)練一個(gè)偏好模型,然后利用強(qiáng)化學(xué)習(xí)來改進(jìn)一個(gè)基本的未對(duì)齊語言模型。實(shí)驗(yàn)證明,RLCD在無害性、有用性和故事大綱生成這三個(gè)不同的對(duì)齊任務(wù)上,以及在7B和30B模型規(guī)模上的偏好數(shù)據(jù)模擬中,都優(yōu)于RLAIF(Bai等人,2022b)和上下文蒸餾(Huang等人,2022)的基線方法。
4.A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
https://www.aminer.cn/pub/64bf49013fda6d7f06275319/
論文指出了目前在真實(shí)世界的網(wǎng)站上,使用預(yù)訓(xùn)練的大型語言模型(LLM)進(jìn)行自主網(wǎng)絡(luò)導(dǎo)航時(shí)仍存在以下問題:(1)開放域問題,(2)有限的上下文長度,(3)HTML缺乏歸納偏差。為解決這些問題,研究人員介紹了WebAgent,一種由LLM驅(qū)動(dòng)的代理程序,可以根據(jù)自然語言指令完成真實(shí)網(wǎng)站上的任務(wù)。WebAgent通過將指令分解為規(guī)范的子指令來提前規(guī)劃,將長HTML文檔總結(jié)為與任務(wù)相關(guān)的片段,并通過生成的Python程序在網(wǎng)站上執(zhí)行任務(wù)。研究人員設(shè)計(jì)了用于基于代碼生成的Flan-U-PaLM,以及用于規(guī)劃和總結(jié)的新的預(yù)訓(xùn)練LLM HTML-T5,使用局部和全局注意機(jī)制以及混合長跨度去噪目標(biāo)。實(shí)證結(jié)果表明,他們的方法使真實(shí)網(wǎng)站上的任務(wù)成功率提高了50%以上,并且HTML-T5是解決基于HTML任務(wù)的最佳模型;與MiniWoB網(wǎng)頁導(dǎo)航基準(zhǔn)測(cè)試上的先前最先進(jìn)技術(shù)相比,成功率提高了14.9%,并在離線任務(wù)規(guī)劃評(píng)估中具有更好的準(zhǔn)確性。因此,摘要說明了在真實(shí)網(wǎng)站上進(jìn)行任務(wù)完成仍存在的問題。
5.WOUAF:Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models
https://www.aminer.cn/pub/6482a38ed68f896efa8db3a0/
論文指出了生成模型的迅速發(fā)展,可以從文本描述中創(chuàng)建超逼真的圖像,但同時(shí)也引發(fā)了關(guān)于虛假信息的關(guān)切。傳統(tǒng)的虛假檢測(cè)機(jī)制雖然在一定程度上提供了緩解,但在追究對(duì)合成圖像的惡意使用負(fù)責(zé)方面存在不足。該論文提出了一種新穎的模型指紋技術(shù),可以對(duì)生成的圖像進(jìn)行歸屬,從而作為對(duì)模型誤用的潛在對(duì)策。該方法根據(jù)每個(gè)用戶的唯一數(shù)字指紋修改生成模型,將唯一標(biāo)識(shí)符印記到生成內(nèi)容上,可以追溯到用戶。該方法將微調(diào)引入到文本到圖像(T2I)任務(wù)中,使用穩(wěn)定擴(kuò)散模型,在對(duì)輸出質(zhì)量影響很小的情況下實(shí)現(xiàn)了近乎完美的歸屬準(zhǔn)確性。該論文嚴(yán)格檢查了我們方法在兩種不同場景下的保密性:一種是惡意用戶試圖檢測(cè)指紋,另一種是用戶對(duì)我們方法有全面的了解。同時(shí)還評(píng)估了我們方法在面對(duì)用戶通常執(zhí)行的各種圖像后處理操作時(shí)的魯棒性。通過對(duì)穩(wěn)定擴(kuò)散模型的廣泛評(píng)估,我們的方法為可追溯的模型分發(fā)和負(fù)責(zé)任的使用提供了一個(gè)有前途和新穎的途徑。
6.Optimized Network Architectures for Large Language Model Training with Billions of Parameters
https://www.aminer.cn/pub/64bf48f93fda6d7f0627475c/
論文指出了在構(gòu)建用于訓(xùn)練大規(guī)模語言模型(LLM)的任何到任何網(wǎng)絡(luò)時(shí)存在的問題。傳統(tǒng)上,所有的GPU都需要進(jìn)行高帶寬的任何到任何通信,以實(shí)現(xiàn)接近最佳的訓(xùn)練性能。然而,本文發(fā)現(xiàn)LLMs的通信模式是獨(dú)特的,只有小組GPU之間需要進(jìn)行高帶寬的任何到任何通信,而這些組內(nèi)以外的通信是微不足道、稀疏且均勻分布的。為了解決這個(gè)問題,作者提出了一種新的網(wǎng)絡(luò)架構(gòu),它將集群分為一組由非阻塞任何到任何高帶寬互連方式連接的GPU集合,稱為HB域。在HB域之間,網(wǎng)絡(luò)只會(huì)連接有通信需求的GPU。作者將這種網(wǎng)絡(luò)連接方式稱為“僅限軌道”的連接,并表明相比于現(xiàn)有的任何到任何Clos網(wǎng)絡(luò),我們提出的網(wǎng)絡(luò)架構(gòu)可以將網(wǎng)絡(luò)成本降低高達(dá)75%,同時(shí)不會(huì)影響LLM訓(xùn)練的性能。
7.Question Decomposition Improves the Faithfulness of Model-Generated Reasoning
https://www.aminer.cn/pub/64bf48f93fda6d7f062745ba/
目前大型語言模型(LLMs)在完成更困難的任務(wù)時(shí),驗(yàn)證其行為的正確性和安全性變得更加困難的問題。一種解決這個(gè)問題的方法是通過促使LLMs在回答問題時(shí)生成逐步推理(CoT),以使其將推理過程外化。推理過程可以讓我們檢查模型執(zhí)行任務(wù)時(shí)使用的過程。然而,這種方法依賴于所陳述的推理能夠忠實(shí)地反映模型的實(shí)際推理,而這并不總是情況。為了提高CoT推理的忠實(shí)度,我們通過將問題分解為子問題來實(shí)現(xiàn)模型生成推理?;诜纸獾姆椒ㄔ趩柎鹑蝿?wù)上取得了強(qiáng)大的性能,有時(shí)接近CoT的性能,同時(shí)在一些最近提出的指標(biāo)上提高了模型陳述推理的準(zhǔn)確性。通過強(qiáng)制模型在不同的語境中回答更簡單的子問題,我們極大地提高了模型生成推理相對(duì)于CoT的忠實(shí)度,同時(shí)仍然實(shí)現(xiàn)了部分CoT的性能提升。我們的結(jié)果表明,可以提高模型生成推理的忠實(shí)度;進(jìn)一步的改進(jìn)可能會(huì)導(dǎo)致能夠驗(yàn)證LLM行為正確性和安全性的推理。
8.Less is More: Focus Attention for Efficient DETR
https://www.aminer.cn/pub/64bf48f93fda6d7f06274926/
研究了目標(biāo)檢測(cè)模型中的一個(gè)問題,即傳統(tǒng)編碼器結(jié)構(gòu)中所有的標(biāo)記都被平等對(duì)待,這會(huì)帶來冗余的計(jì)算負(fù)擔(dān)。最近的稀疏化策略利用了一部分有信息量的標(biāo)記來減少注意力的復(fù)雜性,通過稀疏編碼器來維持性能。然而,這些方法往往依賴于不可靠的模型統(tǒng)計(jì),而且簡單地減少標(biāo)記的數(shù)量會(huì)大大限制檢測(cè)性能,限制了這些稀疏模型的應(yīng)用。該研究提出了一種名為Focus-DETR的方法,它通過對(duì)更有信息量的標(biāo)記進(jìn)行關(guān)注,在計(jì)算效率和模型精度之間取得更好的平衡。具體地,研究者通過使用雙重注意力重建了編碼器,其中包括一個(gè)標(biāo)記評(píng)分機(jī)制,該機(jī)制考慮了來自多尺度特征圖的對(duì)象的定位和類別語義信息。研究者有效地舍棄了背景查詢,并基于評(píng)分增強(qiáng)了細(xì)粒度對(duì)象查詢的語義交互。與相同設(shè)置下的最先進(jìn)的稀疏DETR-like檢測(cè)器相比,我們的Focus-DETR在復(fù)雜性相當(dāng)?shù)那闆r下,在COCO數(shù)據(jù)集上達(dá)到了50.4AP(+2.2)。
9.Is attention all you need in medical image analysis? A review
https://www.aminer.cn/pub/64bf49013fda6d7f062752c7/
探討了醫(yī)學(xué)圖像分析中的一個(gè)問題:光在注意力上是否足夠?它指出目前常見的CNN模型忽略了圖像中的全局像素關(guān)系,限制了它們對(duì)不同全局信息的“廣義化”能力。近年來,隨著人工智能的進(jìn)步,出現(xiàn)了可以從數(shù)據(jù)中學(xué)習(xí)全局關(guān)系的Transformer模型。然而,完整的Transformer模型需要在大規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練,并涉及巨大的計(jì)算復(fù)雜性。因此,提出了輕量級(jí)的注意力和Transformer部件(Transf / Attention)作為完整Transformer的替代品。最近,CNN和Transf / Attention架構(gòu)之間的融合模型出現(xiàn)了越來越多的趨勢(shì),使得混合模型的新時(shí)代得以到來。該研究對(duì)存在的混合CNN-Transf / Attention模型進(jìn)行了概述、評(píng)價(jià)了當(dāng)前和未來的機(jī)會(huì)和挑戰(zhàn),并介紹了一個(gè)綜合分析框架,用于探索科學(xué)和臨床一般化機(jī)會(huì),從而可以激發(fā)新的數(shù)據(jù)驅(qū)動(dòng)領(lǐng)域一般化和適應(yīng)方法的研究。