實時追蹤科研動態(tài)丨7.18來自微軟、清華等機構(gòu)精選新論文

作為科研人員,每天需要檢索和瀏覽大量的學術(shù)文獻,以獲取最新的科技進展和研究成果。然而,傳統(tǒng)的檢索和閱讀方式已經(jīng)無法滿足科研人的需求。
ChatPaper,一款集檢索、閱讀、知識問答于一體的文獻知識工具。幫助你快提高檢索、閱讀論文效率,獲取最新領(lǐng)域研究動態(tài),讓科研工作更加游刃有余。

結(jié)合前沿動態(tài)訂閱功能,精選arXiv當日熱門新論文,形成論文綜述,讓大家更加快速了解前沿動態(tài)。如果想要對某篇論文進行深入對話,可以直接復制論文鏈接到瀏覽器上或者直達ChatPaper頁面:https://www.aminer.cn/chat/g/
2023年7月18日精選新論文列表:
1.TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT?
鏈接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaed33/
ChatPaper綜述:論文討論了在現(xiàn)實世界數(shù)據(jù)庫中使用表格進行分析和操作所需的時間和工作量較大的問題。大型語言模型(LLMs)的進步使得使用自然語言輸入與表格交互成為可能,使得這種能力更接近于現(xiàn)實。作者提出了TableGPT,這是一個統(tǒng)一的經(jīng)過精細調(diào)整的框架,可以使LLMs理解和操作表格,并使用外部功能命令。TableGPT引入了與表格無縫交互的能力,實現(xiàn)了問答、數(shù)據(jù)操作(例如插入、刪除、查詢和修改操作)、數(shù)據(jù)可視化、分析報告生成和自動預測等多種功能。TableGPT致力于為用戶提供便利和易用性,使他們能夠輕松利用表格數(shù)據(jù)。TableGPT的核心是全局表格表示的新概念,它使LLMs能夠深入理解除元信息以外的整個表格。通過同時訓練LLMs的表格和文本模態(tài),TableGPT實現(xiàn)了對表格數(shù)據(jù)的深入理解,并能夠通過命令鏈執(zhí)行復雜的操作。重要的是,TableGPT具有自包含系統(tǒng)的優(yōu)勢,而不是依賴于外部API接口。此外,它支持高效的數(shù)據(jù)流程、查詢拒絕(在適當時)和私有部署,可實現(xiàn)更快的領(lǐng)域數(shù)據(jù)精細調(diào)整,并確保數(shù)據(jù)隱私,增強了該框架對特定用例的適應性。
2.INVE: Interactive Neural Video Editing
鏈接:https://www.aminer.cn/pub/64b60e7d3fda6d7f06ea80e3/
ChatPaper綜述:說明了目前現(xiàn)有的視頻編輯解決方案存在的兩個主要問題:速度過慢和對某些編輯用例的支持不足。為了解決這些挑戰(zhàn),研究人員采用了高效的網(wǎng)絡架構(gòu)和基于哈希網(wǎng)格編碼的方法,大大提高了處理速度。另外,他們還學習了圖像圖集和向量化編輯之間的雙向功能,從而在圖集和幀之間實現(xiàn)了更多的編輯操作。與現(xiàn)有解決方案相比,INVE能夠縮短學習和推理時間,支持更多種類的視頻編輯操作。通過全面的定量和定性分析,展示了INVE在交互式視頻編輯方面相比現(xiàn)有解決方案的優(yōu)勢和改進性能。
3.Language Conditioned Traffic Generation
鏈接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaea41/
ChatPaper綜述:說明了模擬器在自動駕駛開發(fā)中的重要性,以及目前面臨的一個主要挑戰(zhàn):缺乏逼真、可擴展且有趣的內(nèi)容。同時介紹了一種新的方法LCTGen,它利用語言作為動態(tài)交通場景生成的監(jiān)督源。LCTGen模型結(jié)合了大型語言模型和基于Transformer的解碼器架構(gòu),從地圖數(shù)據(jù)集中選擇可能的地點,并生成初始交通分布以及每輛車的行為。通過實驗,LCTGen在無條件和有條件的交通場景生成中表現(xiàn)出更高的逼真度和保真度,優(yōu)于先前的工作。
4.CoTracker: It is Better to Track Together
鏈接:https://www.aminer.cn/pub/64b60e7d3fda6d7f06ea80be/
ChatPaper綜述:論文指出,傳統(tǒng)的視頻運動預測方法要么通過光流估計給定視頻幀中所有點的瞬時運動,要么獨立地跟蹤視頻中各個點的運動。即使是能夠在被遮擋情況下跟蹤點的強大深度學習方法,也是如此。獨立跟蹤點忽略了點之間可能存在的強相關(guān)性,例如它們屬于同一個物體,這可能會影響性能。因此,本文提出了一種名為CoTracker的架構(gòu),它能夠在整個視頻中聯(lián)合跟蹤多個點。該架構(gòu)結(jié)合了光流和跟蹤領(lǐng)域的一些想法,設計出了一種新的、靈活且強大的模型。它基于一個Transformer網(wǎng)絡,通過專門的注意力層模擬了不同點在時間上的相關(guān)性。Transformer通過迭代更新多個軌跡的估計值。它可以按照滑動窗口的方式應用于非常長的視頻,并針對該情況設計了一個展開的訓練循環(huán)。它可以同時跟蹤一個到多個點,并支持隨時添加新的跟蹤點。結(jié)果是一個靈活而強大的跟蹤算法,幾乎在所有基準測試中都表現(xiàn)出優(yōu)越性能。因此,該論文解決了視頻中多點跟蹤問題。
5.Diffusion Models Beat GANs on Image Classification
鏈接:https://www.aminer.cn/pub/64b60eaf3fda6d7f06eaf562/
ChatPaper綜述:說明了一種統(tǒng)一的表征學習方法——擴散模型在圖像分類任務上的表現(xiàn)優(yōu)于生成對抗網(wǎng)絡(GANs)。擴散模型是一種用于圖像生成、去噪、修復、超分辨率、操作等的最新方法,并通過訓練一個U-Net來預測和去除噪音,從而生成高保真度、多樣性和新穎性的圖像。作者發(fā)現(xiàn),U-Net的中間特征圖可以作為有區(qū)分性信息的嵌入,并可用于分類任務。作者探索了提取和使用這些嵌入進行分類任務的最佳方法,并在ImageNet分類任務上展示了有希望的結(jié)果。作者還在多個細粒度圖像分類數(shù)據(jù)集上研究了擴散模型在遷移學習方案下的表現(xiàn),并將這些嵌入與其他架構(gòu)和預訓練方法生成的嵌入進行了比較。
6.Retentive Network: A Successor to Transformer for Large Language Models
鏈接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecfd/
ChatPaper綜述:論文提出了一種名為RetNet的網(wǎng)絡架構(gòu),用于構(gòu)建大型語言模型。該模型同時實現(xiàn)了訓練并行性、低成本推理和良好的性能。論文首先在理論上推導了循環(huán)和注意力之間的關(guān)聯(lián),然后提出了序列建模的保留機制,支持并行、循環(huán)和分塊循環(huán)這三種計算范式。具體來說,通過并行表示實現(xiàn)了訓練的并行性,通過循環(huán)表示實現(xiàn)了低成本的推理,提高了解碼吞吐量、延遲和GPU內(nèi)存利用率,而不損失性能。通過分塊循環(huán)表示實現(xiàn)了具有線性復雜度的高效長序列建模,其中每個塊都可以并行編碼,并通過循環(huán)對塊進行總結(jié)。語言建模的實驗結(jié)果表明,RetNet在可擴展性、并行訓練、低成本部署和高效推理方面都取得了良好的效果。
7.Planting a SEED of Vision in Large Language Model
鏈接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaeaa5/
ChatPaper綜述:該研究說明了在大型語言模型中使用圖像標記器的問題。此前的圖像標記器研究一直陷入僵局,使用量化的視覺標記的框架由于在多模態(tài)理解(與BLIP-2等相比)或生成(與穩(wěn)定擴散等相比)方面的性能和收斂性不佳而失去了重要性。盡管存在這些限制,但我們?nèi)匀粚ζ淠軌蜃匀坏亟y(tǒng)一視覺和文本表示的能力充滿信心,從而促進了LLM的可擴展多模態(tài)培訓。在這項研究中,我們確定了SEED的體系結(jié)構(gòu)和培訓的兩個關(guān)鍵原則,這些原則有效地簡化了與LLM的后續(xù)對齊。第一,圖像標記應該與二維物理補丁位置無關(guān),并且應該以1D因果依賴產(chǎn)生,展示了與LLM中的從左到右自回歸預測機制一致的內(nèi)在相互依賴關(guān)系。第二,圖像標記應該捕捉與單詞中的語義抽象程度一致的高級語義,并在標記器培訓階段進行優(yōu)化,以便在辨別和重構(gòu)方面得到改進。因此,現(xiàn)成的LLM能夠通過有效的LoRA調(diào)整將我們的SEED納入進行圖像到文本和文本到圖像的生成。全面的多模態(tài)預訓練和指令調(diào)整可能會產(chǎn)生更好的結(jié)果,這是未來研究的重點。這個版本的SEED是在僅使用64個V100 GPU和500萬個公開可用的圖像-文本對進行訓練的5.7天內(nèi)完成的。我們的初步研究強調(diào)了離散視覺標記在多功能多模態(tài)LLM中的巨大潛力,以及適當?shù)膱D像標記器在更廣泛研究中的重要性。
8.AlpaGasus: Training A Better Alpaca with Fewer Data
鏈接:https://www.aminer.cn/pub/64b60eaf3fda6d7f06eaf561/
ChatPaper綜述:論文說明了在使用大型語言模型進行指令追蹤時,存在常用的指令微調(diào)數(shù)據(jù)集中包含許多低質(zhì)量的實例,這些實例具有錯誤或無關(guān)的回應,這對指令微調(diào)是誤導性的和有害的。論文提出了一種簡單而有效的數(shù)據(jù)選擇策略,使用強大的語言模型(如ChatGPT)自動識別和刪除低質(zhì)量數(shù)據(jù)。為此,論文引入了AlpaGasus,并且只對從52k的Alpaca數(shù)據(jù)中篩選出的9k高質(zhì)量數(shù)據(jù)進行微調(diào)。AlpaGasus在多個測試集上顯著優(yōu)于原始的Alpaca模型,并且其13B版本在測試任務上達到了其教師語言模型(即Text-Davinci-003)$>90\\%$的性能。它還提供了5.7倍的更快訓練速度,將7B版本的訓練時間從80分鐘(Alpaca)縮短到14分鐘??傮w而言,AlpaGasus展示了一種新穎的以數(shù)據(jù)為中心的指令微調(diào)范例,可以普遍應用于指令微調(diào)數(shù)據(jù),實現(xiàn)更快的訓練和更好的指令追蹤模型。
9.BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs
鏈接:https://www.aminer.cn/pub/64b60eaa3fda6d7f06eaecd4/
ChatPaper綜述:說明了當前語言模型(LM)在多模態(tài)輸入上存在的問題,即它們僅構(gòu)建了粗粒度的映射,缺乏對輸入的具體部分進行定位的能力。為了改善用戶體驗并擴展多模態(tài)LM的應用場景,該研究提出了名為BuboGPT的多模態(tài)LM,具備視覺定位能力,可以在視覺、音頻和語言之間進行跨模態(tài)交互,提供對視覺對象和其他給定模態(tài)的細粒度理解。通過在生成響應或描述對象時能夠指出圖像中對象的具體位置,BuboGPT能夠?qū)崿F(xiàn)精確的視覺定位。該研究的貢獻包括:1) 基于SAM的現(xiàn)成視覺定位模塊,可以提取句子中的實體并找到圖像中對應的掩碼;2) 一種兩階段訓練方案和指令數(shù)據(jù)集,以賦予文本-圖像-音頻的聯(lián)合理解能力。實驗證明,BuboGPT在與人類進行交互時具有出色的多模態(tài)理解和視覺定位能力。無論提供的模態(tài)組合是對齊的還是不對齊的,它都能表現(xiàn)出一致的良好性能。

如何使用ChatPaper?
使用ChatPaper的方法很簡單,打開AMiner首頁,從頁面頂部導航欄或者右下角便可進入ChatPaper頁面。

在ChatPaper頁面中,可以選擇基于單篇文獻進行對話和基于全庫(個人文獻庫)對話,可選擇上傳本地PDF或者直接在AMiner上檢索文獻。