Meta開源LLaMA,高效低預(yù)算推理只需GPT-3的1/10參數(shù)量



本周帶來的?9?個?SOTA?模型分別用于基礎(chǔ)語言模型研究、擴散模型、2D-3D圖像生成、游戲關(guān)卡生成、文本到圖像生成、算法優(yōu)化;1個新思路關(guān)于使擴散模型能夠由任意指導(dǎo)方式控制的通用算法。

Meta開源大型語言模型LLaMA,為研究社區(qū)提供開放高效的基礎(chǔ)語言模型
LLaMA: Open and Efficient Foundation Language Models
該研究面向研究社區(qū)推出大型基礎(chǔ)語言模型 LLaMa,參數(shù)范圍從 7B 到 65B。LLaMa 基于世界上使用人數(shù)最多的 20 種語言的文本語料進行訓(xùn)練,通過訓(xùn)練更多的 tokens,在各種推理預(yù)算下實現(xiàn)最佳性能,其中 LLaMA 65B 和 33B 在 1.4 萬億個 tokens 上訓(xùn)練,最小的 7B 也經(jīng)過 1 萬億個 tokens 上訓(xùn)練。實驗表明,LLaMA-13B 比 GPT-3 小 10 倍,但在大多數(shù)基準(zhǔn)測試中都優(yōu)于 GPT-3。除了開源模型代碼,該研究還提供一組評估模型偏差和有毒評論的基準(zhǔn),以顯示模型的局限性并支持研究人員在這一關(guān)鍵領(lǐng)域進一步研究。
獲取資源:
https://sota.jiqizhixin.com/project/llama

斯坦福大學(xué)提出ControlNet,為擴散模型增加額外輸入來控制細節(jié),以生成個性化圖像
Adding Conditional Control to Text-to-Image Diffusion Models
大型文本到圖像生成擴散模型可以基于 prompt 生成出色的圖像,然而在面對用戶對圖像的個性化需求時,在架構(gòu)設(shè)計上仍有提升空間。該研究提出了一種端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu) ControlNet,可以通過添加額外輸入(如草圖、邊緣圖像、語義分割圖),來控制擴散模型(如 Stable Diffusion)的生成細節(jié),以此改善文生圖效果,能實現(xiàn)線稿生成全彩圖、通過手部關(guān)鍵點優(yōu)化手部的生成等。ControlNet 在訓(xùn)練數(shù)據(jù)集很小 (< 50k)的情況下,也表現(xiàn)出穩(wěn)健的效果。ControlNet 可在個人設(shè)備上進行訓(xùn)練,速度與微調(diào)擴散模型一樣快。此外,當(dāng)使用強大的計算集群,該模型可以擴展到大量(數(shù)百萬到數(shù)十億)數(shù)據(jù)。
獲取資源:
https://sota.jiqizhixin.com/project/controlnet

卡內(nèi)基梅隆大學(xué)提出pix2pix3D,可將簡單筆畫一鍵生成逼真3D模型
3D-aware Conditional Image Synthesis
該研究提出 pix2pix3D,一個用于可控逼真圖像合成的 3D 感知條件生成模型。該模型可基于簡單筆畫生成 3D 模型,實現(xiàn) 2D 到3D 圖像的轉(zhuǎn)換。給定一個 2D 標(biāo)簽圖,如分割圖或邊緣圖,該模型會學(xué)習(xí)從不同的視角合成 3D 圖像,除了為 3D 點分配顏色、密度外,還會分配一個標(biāo)簽,實現(xiàn)在渲染圖像的同時,像素對齊標(biāo)簽圖像。該研究通過構(gòu)建一個交互式系統(tǒng),用戶可從任何角度編輯標(biāo)簽圖,并生成對應(yīng)的輸出。
獲取資源:
https://sota.jiqizhixin.com/project/pix2pix3d

哥本哈根信息技術(shù)大學(xué)提出MarioGPT,基于微調(diào)GPT2可生成88%可玩度的游戲關(guān)卡
MarioGPT: Open-Ended Text2Level Generation through Large Language Models
程序內(nèi)容生成(PCG)的領(lǐng)域是指可以自動創(chuàng)建游戲內(nèi)容的技術(shù),如創(chuàng)建關(guān)卡、地圖或角色,為游戲增加可玩性、降低成本。該研究將大型語言模型與 PCG 技術(shù)結(jié)合的,借助大型語言模型在多樣化語料庫訓(xùn)練后, 獲得表示和預(yù)測復(fù)雜序列的知識來生成簡單游戲組件。以此提出 MarioGPT,這是一個經(jīng)過微調(diào)的 GPT2 模型,可生成基于圖塊的游戲關(guān)卡,其中生成關(guān)卡的可玩性高達 88%。
獲取資源:
https://sota.jiqizhixin.com/project/mariogpt

北大等提出T2I-Adapter,為文本到圖像擴散模型挖掘更多可控能力
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
大規(guī)模文本-圖像(T2I)模型的生成能力可以學(xué)習(xí)復(fù)雜結(jié)構(gòu)和豐富的語義。然而,僅依靠文本提示并不能完全利用模型學(xué)到的知識,尤其是在需要靈活和準(zhǔn)確的結(jié)構(gòu)控制時。該研究旨在"挖出"T2I模型隱性學(xué)習(xí)的能力,然后明確地利用這些能力來更細化地控制生成。以此提出T2I-Adapters,使 T2I 模型中的內(nèi)部知識與外部控制信號保持一致,通過凍結(jié)原有的大型 T2I模型,可以根據(jù)不同的條件訓(xùn)練各種適配器,實現(xiàn)豐富的控制和編輯效果。
獲取資源:
https://sota.jiqizhixin.com/project/t2i-adapter

谷歌推出新優(yōu)化器Lion,在性能和效率方面優(yōu)于主流優(yōu)化器
Symbolic Discovery of Optimization Algorithms
該研究提出將算法發(fā)現(xiàn)表述為程序搜索的方法,并將其應(yīng)用于發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的優(yōu)化算法,以此推出的新優(yōu)化器 Lion。在廣泛任務(wù)中,包括圖像分類、視覺-語言對比學(xué)習(xí)、擴散模型和語言建模的結(jié)果表明,?Lion?優(yōu)于主流優(yōu)化器(如 Adam 和 Adafactor)。例如,在擴散模型上,Lion 獲得最佳 FID 分?jǐn)?shù)并節(jié)省 2.3 倍訓(xùn)練計算量,優(yōu)于 Adam。在自回歸、屏蔽語言建模和微調(diào),與 Adam 相比,Lion 表現(xiàn)出相媲美或更好的性能。
獲取資源:
https://sota.jiqizhixin.com/project/lion-2

北京國家信息科學(xué)技術(shù)研究中心等提出TPVFormer,使用三透視圖表示描述自動駕駛場景
Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction
以視覺為中心的自動駕駛感知的現(xiàn)代方法廣泛采用鳥瞰圖(BEV)表示來描述 3D 場景。盡管它比體素表示效率更好,但它很難用單個平面描述場景的細粒度 3D 結(jié)構(gòu)。該研究提出了一種三透視圖(TPV)表示,該表示伴隨著 BEV 以及兩個附加的垂直平面,通過對三個平面上的投影特征求和,對三維空間中的每個點進行建模。還提出了一種基于 Transformer 的 TPV 編碼器(TPVFormer),將圖像特征提升到 3D TPV 空間。該研究用稀疏監(jiān)督訓(xùn)練的模型有效地預(yù)測了所有體素的語義占用率,并在 nuScene 上的 LiDAR 分割任務(wù)中,僅使用相機輸入可實現(xiàn)與基于 LiDAR 方法相當(dāng)?shù)男阅堋?/p>
獲取資源:
https://sota.jiqizhixin.com/project/tpvformer

馬里蘭大學(xué)提出通用引導(dǎo)算法,使擴散模型能夠被任意的引導(dǎo)模式所控制
Universal Guidance for Diffusion Models
典型的擴散模型被訓(xùn)練成接受一種特定形式的條件,最常見的是文本,如果不重新訓(xùn)練就不能接受其他模式的條件。該研究提出了一種通用的引導(dǎo)算法,使擴散模型能夠被任意的引導(dǎo)模式所控制,而不需要重新訓(xùn)練任何特定用途的組件。該算法成功地生成了高質(zhì)量的圖像,其引導(dǎo)功能包括分割、面部識別、物體檢測和分類器信號。

魏茨曼科技大學(xué)提出MultiDiffusion,可生成通用且可控的圖像,無需進一步微調(diào)或訓(xùn)練
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation
擴散模型在文本-圖像生成方面取得變革性突破。然而,用戶對生成的圖像的可控性,以及對新任務(wù)的快速適應(yīng)仍存在提升空間。當(dāng)前主要通過昂貴而漫長的重新訓(xùn)練和微調(diào)或?qū)μ囟▓D像生成任務(wù)的臨時適應(yīng)來解決這一挑戰(zhàn)。該研究提出 MultiDiffusion,能夠?qū)崿F(xiàn)多功能和可控的圖像生成,使用預(yù)訓(xùn)練文本到圖像擴散模型,無需進一步訓(xùn)練或微調(diào)。
獲取資源:
https://sota.jiqizhixin.com/project/multidiffusion

劍橋等開源貝葉斯優(yōu)化和主動學(xué)習(xí)工具包Trieste,支持主流TensorFlow模型
Trieste: Efficiently Exploring The Depths of Black-box Functions with TensorFlow
該研究提出 Trieste,一個開源的 Python 包,用于貝葉斯優(yōu)化和主動學(xué)習(xí),受益于 TensorFlow 的可擴展性和效率。該工具庫可以在順序決策循環(huán)中即插即用流行的基于 TensorFlow 的模型,例如 GPflow 或 GPflux 的高斯過程,或 Keras 的神經(jīng)網(wǎng)絡(luò)。這種模塊化思維是軟件包的核心,并延伸到采集功能和決策環(huán)路的內(nèi)部動態(tài),研究人員或工程師在處理自定義用例時可以對這兩者進行定制和擴展。Trieste 是一個便于研究和生產(chǎn)的工具包,有一個全面的測試套件和大量的文檔支持。
獲取資源:
https://sota.jiqizhixin.com/project/trieste

北京理工大學(xué)提出高效、低復(fù)雜度和無錨點的目標(biāo)檢測器EdgeYOLO,可在邊緣計算平臺上實現(xiàn)實時檢測
EdgeYOLO: An Edge-Real-Time Object Detector
該研究提出基于最先進的 YOLO 框架的高效、低復(fù)雜度和無錨的物體檢測器 EdgeYOLO,它可以在邊緣計算平臺上實現(xiàn)實時目標(biāo)檢測。通過開發(fā)一種數(shù)據(jù)增強方法來有效抑制訓(xùn)練過程中的過擬合,并設(shè)計了一個混合隨機損失函數(shù)來提高小物體的檢測精度。在 FCOS 的啟發(fā)下,提出了一個更輕、更高效的解耦頭,其推理速度可以在幾乎沒有精度損失的情況下得到提高,同時為計算能力較低的邊緣計算設(shè)備設(shè)計了參數(shù)較少的輕型模型。其實驗結(jié)果在精度上達到 SOTA,在邊緣計算設(shè)備滿足實時需求。
獲取資源:
https://sota.jiqizhixin.com/project/edgeyolo


網(wǎng)頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關(guān)注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務(wù)號名稱「機器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號,即可通過服務(wù)號底部菜單欄使用平臺功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動態(tài)定期推送。
