實(shí)時(shí)追蹤科研動態(tài)丨7.21精選新論文,附ChatPaper綜述

作為科研人員,每天需要檢索和瀏覽大量的學(xué)術(shù)文獻(xiàn),以獲取最新的科技進(jìn)展和研究成果。然而,傳統(tǒng)的檢索和閱讀方式已經(jīng)無法滿足科研人的需求。
ChatPaper,一款集檢索、閱讀、知識問答于一體的文獻(xiàn)知識工具。幫助你快提高檢索、閱讀論文效率,獲取最新領(lǐng)域研究動態(tài),讓科研工作更加游刃有余。

結(jié)合前沿動態(tài)訂閱功能,精選arXiv當(dāng)日熱門新論文,形成論文綜述,讓大家更加快速了解前沿動態(tài)。
如果想要對某篇論文進(jìn)行深入對話,可以直接復(fù)制論文鏈接到瀏覽器上或者直達(dá)ChatPaper頁面:https://www.aminer.cn/chat/g/
2023年7月21日精選新論文列表:
1.A Survey on Dialogue Management in Human-Robot Interaction
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062733bd/
ChatPaper綜述:討論了人機(jī)交互中對話管理的問題。隨著社交機(jī)器人在公眾中的部署越來越多,改善與這些機(jī)器人的交互至關(guān)重要??谡Z為人機(jī)交互提供了直觀的接口,對話管理是這些交互系統(tǒng)的關(guān)鍵組成部分。然而,為了克服當(dāng)前的挑戰(zhàn)并實(shí)現(xiàn)流暢、豐富和吸引人的交互,需要更結(jié)構(gòu)化的方法來結(jié)合人機(jī)交互和對話管理。在這個(gè)系統(tǒng)綜述中,我們分析了對話管理在人機(jī)交互中的當(dāng)前應(yīng)用情況,并關(guān)注使用的對話管理器類型、其能力、評估方法以及對人機(jī)交互中對話管理具體挑戰(zhàn)的問題。我們確定了與對話管理方法、交互領(lǐng)域、機(jī)器人外觀、物理情境和多模態(tài)相關(guān)的挑戰(zhàn)和當(dāng)前科學(xué)前沿。
2.Human Motion Generation: A Survey
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062733ba/
ChatPaper綜述:文章主要是對人類運(yùn)動生成領(lǐng)域的研究進(jìn)行了綜述,說明了該領(lǐng)域的研究目標(biāo)、取得的進(jìn)展以及面臨的挑戰(zhàn)。文章提到,人類運(yùn)動生成旨在生成自然的人類姿勢序列,并展示了在實(shí)際應(yīng)用中的巨大潛力。近年來,在運(yùn)動數(shù)據(jù)收集技術(shù)和生成方法方面取得了顯著進(jìn)展,從而引發(fā)了對人類運(yùn)動生成的興趣。然而,由于人類運(yùn)動的復(fù)雜性以及與條件信號的隱含關(guān)系,這一任務(wù)仍然具有挑戰(zhàn)性。文章介紹了人類運(yùn)動和生成模型的背景,并對三種主流子任務(wù)的代表性方法進(jìn)行了審視:基于文本、音頻和場景上下文的人類運(yùn)動生成。此外,文章還概述了常見的數(shù)據(jù)集和評估指標(biāo),并討論了開放問題和潛在的未來研究方向。希望通過該綜述能夠?yàn)檠芯可鐓^(qū)提供對這一快速發(fā)展領(lǐng)域的全面了解,并激發(fā)解決尚未解決問題的新思路。
3.FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062733dd/
ChatPaper綜述:論文說明了大型語言模型(LLMs)評估面臨的挑戰(zhàn),即基于對齊技能集的細(xì)粒度語言模型評估。當(dāng)前的評估方法通常是粗粒度評估,無法考慮到需要逐實(shí)例進(jìn)行技能組合的用戶指令的特性,從而限制了對LLMs真實(shí)能力的解釋。為了解決這個(gè)問題,作者提出了FLASK評估協(xié)議,它可以用于基于模型和基于人的評估,并將粗粒度評分分解為逐實(shí)例的技能集水平。通過FLASK,作者比較了多個(gè)開源和專有LLMs,并觀察到模型評估和人工評估之間的高度相關(guān)性。FLASK使開發(fā)人員能夠更準(zhǔn)確地衡量模型的性能,并通過分析使LLMs在特定技能方面熟練的因素來改進(jìn)模型。對于實(shí)踐者來說,F(xiàn)LASK可以通過綜合比較各種LLMs來推薦適合特定情況的模型。
4.SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062732a8/
ChatPaper綜述:指出了當(dāng)前大型語言模型(LLMs)在復(fù)雜科學(xué)問題解決方面的能力不足的問題。目前的大型語言模型在數(shù)學(xué)基準(zhǔn)測試中取得了顯著進(jìn)步,但這些基準(zhǔn)測試大多只涉及初高中學(xué)科,只包含多項(xiàng)選擇題,且僅限于基本算術(shù)運(yùn)算的范圍。為了解決這些問題,該論文介紹了一個(gè)擴(kuò)展的基準(zhǔn)套件SciBench,旨在系統(tǒng)地研究復(fù)雜科學(xué)問題解決所需的推理能力。SciBench包含兩個(gè)精心策劃的數(shù)據(jù)集:一個(gè)開放集,其中包含來自數(shù)學(xué)、化學(xué)和物理教科書的大學(xué)級科學(xué)問題,以及一個(gè)閉合集,其中包含來自計(jì)算機(jī)科學(xué)和數(shù)學(xué)本科考試的問題。通過對這兩個(gè)數(shù)據(jù)集的基準(zhǔn)研究,研究結(jié)果表明,目前的LLMs在總體得分上僅為35.80%,表現(xiàn)令人不滿意。此外,通過詳細(xì)的用戶研究,研究人員將LLMs的錯(cuò)誤歸類為十種問題解決能力。分析結(jié)果表明,沒有單一的提示策略顯著優(yōu)于其他策略,而某些在特定問題解決能力上表現(xiàn)出改進(jìn)的策略導(dǎo)致其他能力下降。該論文希望SciBench能夠促進(jìn)LLMs在推理能力方面的進(jìn)一步發(fā)展,從而最終為科學(xué)研究和發(fā)現(xiàn)做出貢獻(xiàn)。
5.The Role of Entropy and Reconstruction in Multi-View Self-Supervised Learning
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062733c7/
ChatPaper綜述:論文解釋了多視角無監(jiān)督學(xué)習(xí)(MVSSL)的成功機(jī)制尚未完全被理解。通過對比性的MVSSL方法已經(jīng)通過InfoNCE這一互信息(MI)的下界進(jìn)行了研究。然而,其他MVSSL方法與MI之間的關(guān)系仍然不清楚。作者考慮了一個(gè)由熵和重構(gòu)項(xiàng)(ER)組成的MI的不同下界,并通過這一下界分析了主要的MVSSL方法。通過這個(gè)ER下界,作者展示了基于聚類的方法(如DeepCluster和SwAV)最大化了MI。作者還重新解釋了基于蒸餾的方法(如BYOL和DINO)的機(jī)制,展示它們明確地最大化了重構(gòu)項(xiàng)并隱式地鼓勵(lì)穩(wěn)定的熵,并通過實(shí)驗(yàn)證實(shí)了這一點(diǎn)。作者展示了用ER下界替代常見MVSSL方法的目標(biāo)可以達(dá)到競爭性的性能,同時(shí)在使用較小的批量大小或較小的指數(shù)移動平均(EMA)系數(shù)進(jìn)行訓(xùn)練時(shí)使它們更加穩(wěn)定。此外,作者還提供了一個(gè)相關(guān)Github倉庫的鏈接。
6.PASTA: Pretrained Action-State Transformer Agents
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062733e5/
ChatPaper綜述:解決了在強(qiáng)化學(xué)習(xí)中使用預(yù)訓(xùn)練transformer模型的現(xiàn)有方法中存在的問題?,F(xiàn)有方法大多依賴于為特定下游應(yīng)用量身定制的復(fù)雜預(yù)訓(xùn)練目標(biāo),限制了它們在廣泛任務(wù)范圍內(nèi)的適用性。該研究通過提出了一種名為PASTA的模型,并對其進(jìn)行了全面研究,解決了這一問題。研究中采用了一種統(tǒng)一的方法,并涵蓋了一系列廣泛的下游任務(wù),包括行為克隆、離線強(qiáng)化學(xué)習(xí)、傳感器故障魯棒性和動力學(xué)變化適應(yīng)性。該研究的目標(biāo)是系統(tǒng)地比較各種設(shè)計(jì)選擇,并為從業(yè)者提供有價(jià)值的見解,以構(gòu)建穩(wěn)健的模型。研究的重點(diǎn)包括在行動和狀態(tài)組件級別進(jìn)行標(biāo)記化,使用基本的預(yù)訓(xùn)練目標(biāo)(如下一個(gè)標(biāo)記預(yù)測),同時(shí)跨多個(gè)領(lǐng)域訓(xùn)練模型,并使用參數(shù)高效的微調(diào)(PEFT)。該研究中開發(fā)的模型包含不到1000萬個(gè)參數(shù),并且應(yīng)用PEFT使得在下游適應(yīng)期間只需微調(diào)不到1萬個(gè)參數(shù),使得廣大群體能夠使用這些模型并重現(xiàn)實(shí)驗(yàn)結(jié)果。研究希望這項(xiàng)研究將鼓勵(lì)進(jìn)一步研究使用基于第一原理設(shè)計(jì)選擇的transformer來表示RL軌跡,并為穩(wěn)健的策略學(xué)習(xí)做出貢獻(xiàn)。
7.Meta-Transformer: A Unified Framework for Multimodal Learning
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f06273356/
ChatPaper綜述:論文討論了多模態(tài)學(xué)習(xí)中的一個(gè)難題,即如何設(shè)計(jì)一個(gè)統(tǒng)一的網(wǎng)絡(luò)模型來處理多種模態(tài)的信息。由于這些模態(tài)之間存在固有差距,因此很難設(shè)計(jì)一個(gè)能夠同時(shí)處理各種模態(tài)的網(wǎng)絡(luò)模型。為了解決這個(gè)問題,作者提出了一個(gè)名為Meta-Transformer的框架,它利用一個(gè)凍結(jié)的編碼器來進(jìn)行多模態(tài)感知,而無需配對的多模態(tài)訓(xùn)練數(shù)據(jù)。在Meta-Transformer中,來自各種模態(tài)的原始輸入數(shù)據(jù)被映射到一個(gè)共享的令牌空間中,使得后續(xù)的編碼器能夠提取輸入數(shù)據(jù)的高層語義特征。Meta-Transformer由三個(gè)主要組件組成:統(tǒng)一的數(shù)據(jù)分詞器,模態(tài)共享的編碼器和針對下游任務(wù)的特定頭部。實(shí)驗(yàn)結(jié)果表明,Meta-Transformer可以處理各種任務(wù),包括基礎(chǔ)感知(文本、圖像、點(diǎn)云、音頻、視頻)、實(shí)際應(yīng)用(X射線、紅外、高光譜和IMU)以及數(shù)據(jù)挖掘(圖形、表格和時(shí)間序列)。Meta-Transformer為使用Transformer實(shí)現(xiàn)統(tǒng)一的多模態(tài)智能開發(fā)指出了一個(gè)有前途的未來。
8.Brain2Music: Reconstructing Music from Human Brain Activity
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f0627347c/
ChatPaper綜述:論文介紹了一種從人腦活動中重建音樂的方法。研究人員使用功能性磁共振成像(fMRI)捕捉了人腦的活動,并使用音樂檢索或MusicLM音樂生成模型來重建音樂。研究發(fā)現(xiàn),通過這種方法生成的音樂與人們所經(jīng)歷的音樂刺激在音樂風(fēng)格、樂器和情緒等語義特性方面相似。研究人員還通過基于體素的編碼建模分析,探索了MusicLM的不同組成部分與腦活動之間的關(guān)系。此外,論文還討論了哪些腦區(qū)表示純文本描述的音樂刺激信息。論文提供了補(bǔ)充材料,包括重建音樂的示例。
9.TokenFlow: Consistent Diffusion Features for Consistent Video Editing
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f06273194/
ChatPaper綜述:研究指出了當(dāng)前視頻生成模型在視覺質(zhì)量和用戶對生成內(nèi)容的控制方面仍然落后于圖像模型。作者提出了一個(gè)框架,利用文本到圖像的擴(kuò)散模型的能力來實(shí)現(xiàn)以文本驅(qū)動的視頻編輯任務(wù)。具體來說,給定一個(gè)源視頻和一個(gè)目標(biāo)文本提示,該方法生成一個(gè)高質(zhì)量的視頻,該視頻遵循目標(biāo)文本,同時(shí)保留輸入視頻的空間布局和運(yùn)動。作者觀察到,通過在擴(kuò)散特征空間中強(qiáng)制保持一致性,可以實(shí)現(xiàn)編輯視頻中的一致性。作者通過利用模型中已有的幀間對應(yīng)關(guān)系來顯式傳播擴(kuò)散特征,從而實(shí)現(xiàn)了這一目標(biāo)。因此,這個(gè)框架不需要任何訓(xùn)練或微調(diào),并且可以與任何現(xiàn)成的文本到圖像編輯方法配合使用。作者在各種真實(shí)世界的視頻上展示了最先進(jìn)的編輯結(jié)果。
10.Large language models shape and are shaped by society: A survey of arXiv publication patterns
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062732eb/
ChatPaper綜述:文章主要的問題是關(guān)于大型語言模型(LLM)研究如何在學(xué)術(shù)領(lǐng)域中產(chǎn)生深遠(yuǎn)影響,并且如何被社會因素所塑造。作者通過分析在CS和Stat arXiv上發(fā)布的38.8萬篇論文,重點(diǎn)研究了2018-2022年與2023年期間出版模式的變化。作者分析了LLM論文的比例增加情況,LLM相關(guān)主題受到的關(guān)注度,撰寫LLM論文的作者以及他們的研究背景與主題之間的相關(guān)性,區(qū)分高引用LLM論文的因素,以及國際合作模式的模式。作者指出,LLM研究越來越關(guān)注社會影響:在“計(jì)算機(jī)與社會”子arXiv上,LLM相關(guān)論文的比例增加了18倍,新發(fā)表LLM論文的作者比有經(jīng)驗(yàn)的作者更關(guān)注應(yīng)用和社會影響。LLM研究也受到社會動態(tài)的影響:作者記錄了LLM作者關(guān)注的主題中的性別和學(xué)術(shù)/工業(yè)差距,以及合作網(wǎng)絡(luò)中的美國/中國分裂??偟膩碚f,作者的分析證明了LLM研究在塑造社會以及被社會塑造的深刻方式,說明了社會技術(shù)視角的必要性。
11.A Survey of What to Share in Federated Learning: Perspectives on Model Utility, Privacy Leakage, and Communication Efficiency
鏈接:https://www.aminer.cn/pub/64ba03413fda6d7f062732bc/
ChatPaper綜述:論文討論了在聯(lián)邦學(xué)習(xí)中應(yīng)該分享什么信息,重點(diǎn)關(guān)注模型的效用、隱私泄露和通信效率。目前關(guān)于聯(lián)邦學(xué)習(xí)的調(diào)研大多集中在訓(xùn)練過程中分享模型參數(shù)的方法上,而忽視了分享其他形式本地信息的潛力。該論文通過四個(gè)不同的貢獻(xiàn)與以往的論文有所不同。首先,通過共享方法將FL方法進(jìn)行了新的分類,包括模型共享、合成數(shù)據(jù)共享和知識共享三種共享信息的方式。其次,分析了不同共享方法對隱私攻擊的脆弱性,并回顧了提供一定隱私保證的防御機(jī)制。第三,對比了不同共享方法在FL中的性能和通信開銷,并通過模型逆推和成員推斷攻擊評估了潛在的隱私泄露,同時(shí)比較了各種防御方法的有效性。最后,討論了當(dāng)前方法的潛在不足,并提出了改進(jìn)的未來方向。

如何使用ChatPaper?
使用ChatPaper的方法很簡單,打開AMiner首頁,從頁面頂部導(dǎo)航欄或者右下角便可進(jìn)入ChatPaper頁面。

在ChatPaper頁面中,可以選擇基于單篇文獻(xiàn)進(jìn)行對話和基于全庫(個(gè)人文獻(xiàn)庫)對話,可選擇上傳本地PDF或者直接在AMiner上檢索文獻(xiàn)。