AutoGPT等爆款實驗性應(yīng)用開源;Dolly2.0、TurboPilot、鳳凰等多個開源模型發(fā)布



本周帶來的?6?個?SOTA?模型分別用于聊天對話、說話頭像視頻生成、通用圖像分割等;9?個工具用于規(guī)劃執(zhí)行復(fù)雜任務(wù)、AI代理開發(fā)、代碼助手開發(fā)、AGI研究等。
GPT4應(yīng)用項目Auto-GPT開源,給定復(fù)雜任務(wù)即可自主規(guī)劃和實施解決方案
Auto-GPT 是基于 GPT4 的開源 AI 代理 Python 應(yīng)用程序,由開發(fā)人員 Significant Ggravitas 近日發(fā)布在 GitHub 上。用戶僅需要提供給 Auto-GPT 目標任務(wù),即可全自動地根據(jù)任務(wù)指令進行分析和執(zhí)行,自己給自己提問并進行回答,中間環(huán)節(jié)不需要用戶參與。目前 AutoGPT 已經(jīng)配備的功能包括:聯(lián)網(wǎng)搜集信息;存儲信息;生成用于文本生成的 GPT-4 實例;使用 GPT-3.5 總結(jié)信息等。項目現(xiàn)已在 github 開源并可部署在本地,但需要 GPT4 的資格。
獲取資源:
https://sota.jiqizhixin.com/project/auto-gpt

基于Auto-GPT開發(fā)AI代理的項目AgentGPT,可直接在瀏覽器上部署的個人AI代理
AgentGPT 是開發(fā)者對基于 GPT4 的 AI 代理應(yīng)用 Auto-GPT 的瀏覽器部署,旨在實現(xiàn)一個可以在瀏覽器中組裝、配置和部署自主 AI 代理的項目。AgentGPT 可以讓用戶自主命名自己的 AI 代理,給定任務(wù)后,AgentGPT 會自主規(guī)劃和實現(xiàn)需求任務(wù)。當前,AgentGPT 已經(jīng)在 github 上開源了其本地部署的代碼,但完全體驗仍需要 GPT4 的資格。
獲取資源:
https://sota.jiqizhixin.com/project/agentgpt

基于SAM的強大Zero-Shot視覺應(yīng)用,Grounded-Segment-Anything,分割、生成、檢測一應(yīng)俱全
Grounded-Segment-Anything 是國內(nèi) IDEA 研究院研究者等人基于 Segment Anything 構(gòu)建的視覺應(yīng)用流,主要基于三種現(xiàn)有強大的 Zero-shot 大模型的組合:最強的 Zero-Shot 檢測器 Grounding DINO,最強的 Zero-Shot 分割器 SAM,最強的 Zero-Shot 生成器 Stable diffusion。三種類型的模型可以分開使用,也可以組合式使用,組建出強大的視覺工作流模型,僅需文本輸入即可實現(xiàn)圖像內(nèi)特定的實例分割并對分割區(qū)域進行可控生成替換。項目目前已經(jīng)在 github 開源,同時也提供了豐富的集成擴展 demo。
獲取資源:
https://sota.jiqizhixin.com/project/grounded-segment-anything

微軟開源DeepSpeed Chat,以更低的成本、更快的速度訓練類似于ChatGPT的高質(zhì)量大模型
DeepSpeed Chat 提供了一個端到端的 RLHF 規(guī)?;到y(tǒng),讓更多用戶能夠在本地訓練一個類似 ChatGPT 的大規(guī)模語言模型。開發(fā)者只需一個腳本,就能實現(xiàn)多個訓練步驟,并且在完成后還可以利用推理 API 進行對話式交互測試。同時 DeepSpeed-RLHF 系統(tǒng)在大規(guī)模訓練中具有非常高的效率,使復(fù)雜的 RLHF 訓練變得快速、經(jīng)濟并且易于大規(guī)模推廣,僅需 1-2 個小時即可完成 13 億參數(shù)模型的訓練。目前,DeepSpeed Chat 項目已在 github 開源并提供了豐富的可擴展應(yīng)用及不同訓練階段的 api。
獲取資源:
https://sota.jiqizhixin.com/project/deepspeed-chat

LAION AI等機構(gòu)開源聊天助手Open-Assistant,可與第三方系統(tǒng)交互并動態(tài)檢索信息
LAION AI 等開源一個基于聊天的助手OpenAssistant,可以理解任務(wù)、與第三方系統(tǒng)交互、動態(tài)檢索信息。OpenAssistant 是在 LAION AI 開源的人類數(shù)據(jù)集(OpenAssistant Conversations)上進行訓練的完全開源的大規(guī)模指令微調(diào)模型,該數(shù)據(jù)集基于大量基于文本的輸入和反饋,由人工生成、人工注釋的助理式對話語料庫,覆蓋了廣泛的主題和寫作風格,由 161443 條消息組成,分布在 66497 個會話樹中,使用 35 種不同的語言。結(jié)果顯示,OpenAssistant 的回復(fù)比 GPT-3.5-turbo (ChatGPT) 更受歡迎。
獲取資源:
https://sota.jiqizhixin.com/project/open-assistant

阿卜杜拉國王科技大學開源多智能體代碼庫CAMEL,提出了通過角色扮演框架來研究LLM智能體的行為和能力
CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society
該研究通過 “角色扮演”(Role-Playing)的新型多智能體框架,使多個智能體能夠進行對話并合作解決分配的任務(wù)。智能體會被分配不同的角色,并被期望應(yīng)用他們的專業(yè)和知識來找到滿足他們共同任務(wù)的解決方案。并使用啟示式提示(Inception Prompt)來引導聊天智能體完成任務(wù),同時與人類意圖保持一致。以此開源了用于探索大語言模型(LLM)思想和能力的多智能體代碼庫 CAMEL,提出了通過角色扮演框架來研究 LLM 智能體的行為和能力。該項目當前支持 Colab 在線試用兩個ChatGPT 代理間的角色對話,并提供可扮演的角色列表。
獲取資源:
https://sota.jiqizhixin.com/project/camel-2

基于GPT4的Python Debug工具Wolverine,根據(jù)報錯信息持續(xù)動修復(fù)Python中的bug
國外開發(fā)者 BioBootloader 在 github 上開源了基于 GPT4 的 Python Debug 工具 Wolverine(金剛狼)。使用該項目運行代碼時,一旦出現(xiàn)報錯,GPT-4 就會自動編輯,然后給出出錯的原因,通過不斷地持續(xù)該過程,即使代碼內(nèi)全是 bug,也能完整的修復(fù)代碼。項目開源了其非常重要的的提示語庫,供開發(fā)者了解工作機制,并將持續(xù)開發(fā)其他編程語言的版本。
獲取資源:
https://sota.jiqizhixin.com/project/wolverine

港中文發(fā)布大型語言模型Phoenix(鳳凰)、Chimera,中文效果驚艷、模型權(quán)重已發(fā)布
近日香港中文大學(深圳)和深圳市大數(shù)據(jù)研究院的王本友教授團隊開發(fā)的 Phoenix(鳳凰) 和 Chimera 等開源大語言模型,其中文效果接近百度文心一言,GPT-4 評測達到了 97% 文心一言的水平,在人工評測中五成不輸文心一言。Phoenix 和 Chimera 等開源大語言模型在中文和多種語言環(huán)境下都展現(xiàn)出了優(yōu)異的表現(xiàn),無論是在中文開源模型中還是在拉丁語系中。當前項目已開源 2 個 Phoenix 型號、4 個 Chimera 型號的模型權(quán)重。
獲取資源:
https://sota.jiqizhixin.com/project/llmzoo

可本地部署的類Copilot代碼助手TurboPilot開源,僅需4G RAM即可實現(xiàn)
TurboPilot 是基于 Salesforce Codegen model 的類 Copilot 語言模型,項目主要基于 llma.cpp 實現(xiàn)本地快速部署,并提供不同體量、不同語言版本的預(yù)訓練權(quán)重供開發(fā)者體驗。僅需 4GB 的 RAM 即可運行 60 億參數(shù)的 Salesforce Codegen 模型。
獲取資源:
https://sota.jiqizhixin.com/project/turbopilot

完全開源的類ChatGPT模型Dolly 2.0,基于自主構(gòu)建的指令集微調(diào)并可直接商用
Dolly 2.0 是 databricks 提出的開源對話模型,它基于開源 EleutherAI pythia 模型系列,專門針對小型開源指令記錄語料庫進行了微調(diào)(databricks-dolly-15k),該數(shù)據(jù)集由 Databricks 員工生成,許可條款允許出于任何目的使用、修改和擴展,包括學術(shù)或商業(yè)應(yīng)用。其精調(diào)數(shù)據(jù)集由專業(yè)人士構(gòu)建并含有大量長文本問答數(shù)據(jù)。目前,Dolly 2.0 的模型權(quán)重和精調(diào)數(shù)據(jù)集均已經(jīng)開源,并可任意修改。
獲取資源:
https://sota.jiqizhixin.com/project/dolly-2-0

騰訊等提出SadTalker,輸入人臉圖像和一段語音音頻來生成會說話的頭像視頻
SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation
輸入人臉圖像和一段語音音頻來生成會說話的頭像視頻包含許多挑戰(zhàn),即不自然的頭部運動、扭曲的表情和身份修改。該研究提出 SadTalker,它可從音頻中生成 3D 頭部姿勢、表情,并隱含地調(diào)制 3D 感知面部渲染器,用于生成說話的頭部。具體地,該研究使用 ExpNet 提煉系數(shù)和 3D 渲染的臉部,來從音頻中學習準確的面部表情。通過條件 VAE 設(shè)計 PoseVAE 來合成不同風格的頭部姿勢。該項目可 Colab、Hugging Face 試用,提供 Windows/Linux 安裝教程、推理配置的最佳實踐和技巧。
獲取資源:
https://sota.jiqizhixin.com/project/sadtalker

微軟用GPT-4做大模型指令微調(diào),新任務(wù)零試性能再提升
Instruction Tuning with GPT-4
微軟研究院使用 GPT-4 作為教師模型進行 self-intruct 微調(diào),并基于 GPT-4 生成的數(shù)據(jù)開發(fā)了指令微調(diào)的 LLaMA 模型和獎勵模型。該項目發(fā)布了 GPT-4 生成的數(shù)據(jù),包括中英文的 52k 指令遵循數(shù)據(jù)集、GPT-4 生成的對三種指令微調(diào)模型的輸出進行評級的反饋數(shù)據(jù)。實驗表明,GPT-4 生成的 52k 中英指令遵循數(shù)據(jù)在新任務(wù)上實現(xiàn)了較以往 SOTA 模型更好的零試性能。
獲取資源:
https://sota.jiqizhixin.com/project/gpt-4-llm

Meta等提出開放類分割模型OVSeg,可與Segment Anything結(jié)合,完成細粒度開放語言分割
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
Meta 等提出開放類分割模型 OVSeg,可與 Segment Anything 結(jié)合,完成細粒度開放語言分割開放詞匯語義分割旨在根據(jù)文本描述將圖像分割成語義區(qū)域,這些區(qū)域在訓練期間可能會被忽略。Meta 等提出開放類分割模型 OVSegOVSeg,在一組被掩膜的圖像區(qū)域和它們對應(yīng)的文本描述的收集的數(shù)據(jù)上對 CLIP 進行微調(diào)。實驗表明,掩膜提示微調(diào)可以在不修改任何CLIP 權(quán)重的情況下帶來顯著性能提升。OVSeg 可進一步與 Segment Anything 結(jié)合,完成細粒度的開放語言分割。比如識別圖中多個花朵的種類:sunflowers (向日葵)、white roses (白玫瑰)等。當前項目提供 Hugging Face 體驗分割效果。
獲取資源:
https://sota.jiqizhixin.com/project/ovseg

智源研究院推出通用分割模型SegGPT,利用視覺提示完成任意分割任務(wù)的通用視覺模型
SegGPT: Segmenting Everything In Context
智源研究院視覺團隊推出了通用分割模型 SegGPT(Segment Everything In Context),它能通過視覺提示來完成任意分割任務(wù)。SegGPT 可以根據(jù)用戶提供的示例圖像和意圖掩碼來完成類似的分割任務(wù),無論是在當前畫面還是其他畫面或視頻環(huán)境中。通過交互提示,SegGPT 也能識別分割畫面上的指定物體。該模型具有通用能力、靈活推理能力和自動視頻分割和追蹤能力等優(yōu)勢。SegGPT 是智源通用視覺模型 Painter 的衍生模型,可分割一切物體。無需微調(diào),只需提供示例即可完成對應(yīng)分割任務(wù)。
獲取資源:
https://sota.jiqizhixin.com/project/seggpt

羅格斯大學發(fā)布AGI研究平臺OpenAGI,專門用于提供復(fù)雜、多步驟任務(wù),并伴有特定任務(wù)的數(shù)據(jù)集、評估指標和各種可擴展的模型
OpenAGI: When LLM Meets Domain Experts
大型語言模型(LLMs)出色的學習和推理能力,使其有望成為選擇、合成和執(zhí)行外部模型以解決復(fù)雜任務(wù)的控制器。該研究開發(fā)了 OpenAGI,一個開源的 AGI 研究平臺,專門用于提供復(fù)雜的、多步驟的任務(wù),并伴有特定任務(wù)的數(shù)據(jù)集、評估指標和各種可擴展的模型。OpenAGI 將復(fù)雜的任務(wù)制定為自然語言查詢,作為 LLM 的輸入。LLM 隨后選擇、合成并執(zhí)行 OpenAGI 提供的模型來解決該任務(wù)。此外,還提出了一個從任務(wù)反饋中強化學習(RLTF)的機制,該機制使用任務(wù)解決的結(jié)果作為反饋來提高 LLM 的任務(wù)解決能力。當 LLM 負責綜合各種外部模型來解決復(fù)雜的任務(wù),RLTF 則提供反饋來提高其任務(wù)解決能力,從而實現(xiàn)自我改進的人工智能的反饋循環(huán)。
獲取資源:
https://sota.jiqizhixin.com/project/openagi


網(wǎng)頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關(guān)注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務(wù)號名稱「機器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號,即可通過服務(wù)號底部菜單欄使用平臺功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動態(tài)定期推送。?
