Together發(fā)布首個(gè)全面開源社區(qū)版ChatGPT(含權(quán)重與訓(xùn)練數(shù)據(jù)集)



本周帶來的?10?個(gè)?SOTA?模型分別用于聊天對(duì)話、視覺語(yǔ)言、具身任務(wù)如機(jī)器人操作、語(yǔ)音識(shí)別、視覺表征等;還有?2 個(gè)工具用于上下文學(xué)習(xí)、聊天機(jī)器人構(gòu)建。

Together聯(lián)手LAION及Ontocord發(fā)布首個(gè)全面開源社區(qū)版ChatGPT
Together團(tuán)隊(duì)發(fā)布OpenChatKit,這是一個(gè)強(qiáng)大的聊天應(yīng)用開發(fā)工具,相關(guān)的代碼,模型細(xì)節(jié)權(quán)重和訓(xùn)練數(shù)據(jù)集均已開源,支持開發(fā)特定領(lǐng)域和通用的聊天機(jī)器人。訓(xùn)練數(shù)據(jù)集由Together 團(tuán)隊(duì)與 LAION 和 Ontocord 合作共同構(gòu)建。OpenChatKit 的聊天模型支持推理、多輪對(duì)話和生成答案,該模型擁有 200 億個(gè)參數(shù)并接受了 4300 萬(wàn)條指令的訓(xùn)練。OpenChatKit 包括一個(gè)通用聊天機(jī)器人和創(chuàng)建專用機(jī)器人所需的組件,主要這四部分:一個(gè)指令微調(diào)的 200 億參數(shù)語(yǔ)言模型(GPT-NeoX-20B)、一個(gè) 60 億參數(shù)調(diào)節(jié)模型(GPT-JT-6B)和一個(gè)可擴(kuò)展的檢索系統(tǒng),以及一組用于微調(diào)模型以實(shí)現(xiàn)高精度的定制用戶任務(wù)的方案。
獲取資源:
https://sota.jiqizhixin.com/project/openchatkit

微軟開源Visual ChatGPT,在聊天中實(shí)現(xiàn)對(duì)話問答、看圖問答、AI畫圖/改圖
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
ChatGPT 在許多領(lǐng)域展現(xiàn)出卓越的對(duì)話和推理能力。然而,由于 ChatGPT 是用語(yǔ)言進(jìn)行訓(xùn)練的,因此它目前無(wú)法處理或生成來自視覺世界的圖像。該研究開源 Visual ChatGPT ,用 ChatGPT api 和開源視覺基礎(chǔ)模型構(gòu)建的多模態(tài)問答系統(tǒng),可在聊天中實(shí)現(xiàn)對(duì)話問答、看圖問答、AI畫圖/改圖。
獲取資源:
https://sota.jiqizhixin.com/project/visual-chatgpt

英偉達(dá)提出視覺語(yǔ)言模型Prismer,利用領(lǐng)域?qū)<腋咝?shí)現(xiàn)視覺語(yǔ)言推理任務(wù)
Prismer: A Vision-Language Model with An Ensemble of Experts
最近視覺語(yǔ)言模型展示了高超的多模態(tài)生成能力,但通常需要在大規(guī)模數(shù)據(jù)集上訓(xùn)練龐大的模型。為了更具可擴(kuò)展性,該研究引入了 Prismer,利用領(lǐng)域?qū)<遥╠omain experts)集合構(gòu)建的數(shù)據(jù)和參數(shù)高效的視覺語(yǔ)言模型。Prismer 僅需要訓(xùn)練少量組件,大多數(shù)網(wǎng)絡(luò)權(quán)重來自預(yù)訓(xùn)練領(lǐng)域?qū)<?,并在?xùn)練期間保持凍結(jié)。Prismer 在微調(diào)和少試學(xué)習(xí)條件下,視覺語(yǔ)言推理性能與當(dāng)前最先進(jìn)技術(shù)相媲美,同時(shí)訓(xùn)練數(shù)據(jù)減少兩個(gè)數(shù)量級(jí)。
獲取資源:
https://sota.jiqizhixin.com/project/prismer

谷歌提出PaLM-E,將現(xiàn)實(shí)世界的連續(xù)傳感器模態(tài)納入語(yǔ)言模型,實(shí)現(xiàn)多模態(tài)感知和聯(lián)想
PaLM-E: An Embodied Multimodal Language Model
大型語(yǔ)言模型要在現(xiàn)實(shí)世界中實(shí)現(xiàn)普適推理(例如,用于機(jī)器人問題)需要克服“接地”問題。該研究提出具身多模態(tài)模型?PaLM-E,將真實(shí)世界中的連續(xù)感知模態(tài)直接融入語(yǔ)言模型,建立單詞和感知之間的聯(lián)系。其輸入為多模態(tài)語(yǔ)句,其中交錯(cuò)了視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼。將這些編碼與預(yù)訓(xùn)練大型語(yǔ)言模型一起進(jìn)行端到端訓(xùn)練,可用于多個(gè)具體任務(wù),包括順序序列機(jī)器人操作規(guī)劃、視覺問答和字幕生成,這受益于互聯(lián)網(wǎng)規(guī)模的語(yǔ)言、視覺和視覺語(yǔ)言領(lǐng)域的多樣化聯(lián)合訓(xùn)練。
獲取資源:
https://sota.jiqizhixin.com/project/palm-e

上海人工智能實(shí)驗(yàn)室開源OpenICL,簡(jiǎn)化ICL模型的實(shí)現(xiàn)
OpenICL: An Open-Source Framework for In-context Learning
近年來,上下文學(xué)習(xí)(In-context Learning,ICL)作為大型語(yǔ)言模型(LLM)評(píng)估的新范式備受關(guān)注。與傳統(tǒng)的微調(diào)方法不同,ICL 無(wú)需任何參數(shù)更新即可將預(yù)訓(xùn)練模型適應(yīng)于未見任務(wù)。然而,由于涉及不同的檢索和推理方法以及不同模型、數(shù)據(jù)集和任務(wù)的不同預(yù)處理要求,ICL 的實(shí)現(xiàn)是復(fù)雜的。該研究開源 OpenICL,這是一個(gè)用于 ICL 和 LLM 評(píng)估的開源工具包,具有高度靈活的架構(gòu),可以輕松組合不同的組件以適應(yīng)用戶的需求。OpenICL 還提供各種最先進(jìn)的檢索和推理方法,以簡(jiǎn)化將 ICL 適應(yīng)最新研究的過程。
獲取資源:
https://sota.jiqizhixin.com/project/openicl

谷歌提出通用語(yǔ)音模型USM,將自動(dòng)語(yǔ)音識(shí)別擴(kuò)展到超過100種語(yǔ)言
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages
該研究介紹了通用語(yǔ)音模型(USM),可在100多種語(yǔ)言中進(jìn)行自動(dòng)語(yǔ)音識(shí)別(ASR),其在一個(gè)跨越 300 多種語(yǔ)言的 1200萬(wàn)(M)小時(shí)的大型無(wú)標(biāo)簽多語(yǔ)言數(shù)據(jù)集上對(duì)模型的編碼器進(jìn)行預(yù)訓(xùn)練,并在一個(gè)較小的有標(biāo)簽數(shù)據(jù)集上進(jìn)行微調(diào)而實(shí)現(xiàn)。該模型在下游的多語(yǔ)言 ASR 和語(yǔ)音-文本翻譯任務(wù)中取得最先進(jìn)的性能,盡管使用的標(biāo)記訓(xùn)練集的規(guī)模是 Whisper 模型的1/7,但該模型在許多語(yǔ)言的域內(nèi)和域外語(yǔ)音識(shí)別任務(wù)中都表現(xiàn)出相當(dāng)甚至更好的性能。
獲取資源:
https://sota.jiqizhixin.com/project/usm

特拉維夫大學(xué)提出面向語(yǔ)義字體設(shè)計(jì)的Word-as-image生成模型
Word-As-Image for Semantic Typography
Word-as-image 是一種面向語(yǔ)義字體設(shè)計(jì)的技術(shù),可以在保持詞可讀性的同時(shí),用文字插圖可視化詞,以在視覺上傳達(dá)文字含義。該研究提出一種自動(dòng)創(chuàng)建 "Word-as-image"插圖的方法,依靠大型預(yù)訓(xùn)練語(yǔ)言視覺模型,從視覺上提煉出文本概念,并在預(yù)訓(xùn)練穩(wěn)定擴(kuò)散模型指導(dǎo)下,優(yōu)化每個(gè)字母的輪廓。該方法可以處理大量的語(yǔ)義概念,在眾多示例中展示了出色的視覺效果。
獲取資源:
https://sota.jiqizhixin.com/project/word-as-image

東北大學(xué)等提出COCs,基于無(wú)卷積和無(wú)注意力的新型視覺特征提取范式
Image as Set of Points
卷積網(wǎng)絡(luò)將圖像視為矩形中有組織的像素,并通過局部區(qū)域的卷積操作提取特征;視覺Transformers(ViTs)將圖像視為補(bǔ)丁序列,并通過全局范圍的注意機(jī)制提取特征。該研究提出新的視覺表示范式 Context Cluster(CoCs) ,其將圖像視為一組無(wú)組織的點(diǎn),并通過簡(jiǎn)化的聚類算法提取特征,在一些基準(zhǔn)上取得了與 ConvNets 或 ViTs 相當(dāng)甚至更好的結(jié)果,這為圖像和視覺表征提供一個(gè)新的視角。
獲取資源:
https://sota.jiqizhixin.com/project/cocs

清華大學(xué)等提出VPD,將預(yù)訓(xùn)練文本圖像擴(kuò)散模型的高級(jí)知識(shí)遷移到下游任務(wù)中
Unleashing Text-to-Image Diffusion Models for Visual Perception
該研究提出 VPD(預(yù)訓(xùn)練擴(kuò)散模型的視覺感知),這是一種在視覺感知任務(wù)中利用預(yù)訓(xùn)練文本到圖像擴(kuò)散模型的語(yǔ)義信息的新框架。VPD 利用視覺特征和文本特征之間的交叉注意力圖來提供明確的指導(dǎo),與基于各種視覺預(yù)訓(xùn)練范式的方法相比,更好地適應(yīng)下游視覺感知任務(wù),實(shí)現(xiàn)了更快的收斂;在語(yǔ)義分割、參考圖像分割和深度估計(jì)方面的大量實(shí)驗(yàn)證明了 VPD 的有效性,VPD 在 NYUv2 深度估計(jì)上達(dá)到了 0.254 的 RMSE,在 RefCOCO-val 參考圖像分割上達(dá)到了 73.3% 的 oIoU。
獲取資源:
https://sota.jiqizhixin.com/project/vpd

OpenAI推出新的生成模型家族Consistency Models,無(wú)需對(duì)抗訓(xùn)練即可實(shí)現(xiàn)高樣本質(zhì)量
Consistency Models
擴(kuò)散模型在圖像、音頻和視頻生成方面取得了重大突破,但它們依賴于一個(gè)迭代的生成過程,導(dǎo)致采樣速度緩慢,這限制了它們?cè)趯?shí)時(shí)應(yīng)用方面的潛力。為了克服這一限制,該研究提出了Consistency Models,無(wú)需對(duì)抗性訓(xùn)練就能實(shí)現(xiàn)高采樣質(zhì)量。在設(shè)計(jì)上支持快速的單步生成,同時(shí)仍然允許幾步取樣來?yè)Q取計(jì)算和樣本質(zhì)量;此外,還支持零試的圖像編輯,如圖像上色和超級(jí)分辨率,而無(wú)需對(duì)這些任務(wù)進(jìn)行訓(xùn)練。
獲取資源:
https://sota.jiqizhixin.com/project/consistency-models

微軟提出VALL-E X,將源語(yǔ)言語(yǔ)音作為提示,即可生成目標(biāo)語(yǔ)言的高質(zhì)量語(yǔ)音
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling
該研究提出了一種跨語(yǔ)言神經(jīng)編解碼語(yǔ)言模型 VALL-E X,用于跨語(yǔ)言語(yǔ)音合成。該模型通過使用源語(yǔ)言語(yǔ)音和目標(biāo)語(yǔ)言文本作為提示,擴(kuò)展了 VALL-E 并訓(xùn)練了一個(gè)多語(yǔ)言條件編解碼語(yǔ)言模型來預(yù)測(cè)目標(biāo)語(yǔ)音的聲學(xué)令牌序列。實(shí)驗(yàn)結(jié)果表明,VALL-E X 可以僅通過一次源語(yǔ)言語(yǔ)音作為提示,在目標(biāo)語(yǔ)言中生成高質(zhì)量的語(yǔ)音,并保留未見過的說話者的聲音、情感和聲學(xué)環(huán)境。此外,VALL-E X 有效緩解了外語(yǔ)口音問題,并可以通過語(yǔ)言 ID 進(jìn)行控制。
獲取資源:
https://sota.jiqizhixin.com/project/vall-e-x

谷歌等提出Nerflets,由局部神經(jīng)場(chǎng)組成,實(shí)現(xiàn)高效、結(jié)構(gòu)感知的3D場(chǎng)景表示
Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Supervisio
該研究提出 Nerflets,一種新型 3D 場(chǎng)景表示方法,將場(chǎng)景分解成一組本地神經(jīng)輻射場(chǎng)。通過僅利用光度和推斷的全景圖像監(jiān)督,可以直接共同優(yōu)化一組 Nerflets 的參數(shù),從而形成場(chǎng)景的分解表示,其中每個(gè)對(duì)象實(shí)例由一組 Nerflets 表示。實(shí)驗(yàn)結(jié)果表明,Nerflets:(1)比傳統(tǒng)的全局 NeRF 更有效地逼近場(chǎng)景,(2)允許從任意視角提取全景和光度渲染,(3)支持 NeRF 不具備的任務(wù),如 3D 全景分割和交互式編輯。該研究發(fā)現(xiàn),每個(gè) Nerflet 的局部性使得模型緊湊、高效且多視角一致。
獲取資源:
https://sota.jiqizhixin.com/project/nerflets

網(wǎng)頁(yè)端訪問: 在瀏覽器地址欄輸入新版站點(diǎn)地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺(tái),查看關(guān)注的模型是否有新資源收錄。?
移動(dòng)端訪問:在微信移動(dòng)端中搜索服務(wù)號(hào)名稱「機(jī)器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號(hào),即可通過服務(wù)號(hào)底部菜單欄使用平臺(tái)功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動(dòng)態(tài)定期推送。
