Cerebras開源7個商用GPT模型;民間版中文羊駝、Dolly、OpenFlamingo等多個模型開源



本周帶來的?12個?SOTA?模型分別用于聊天對話、醫(yī)學對話、文本到視頻生成、3D 生成、視覺問答
Cerebras開源7個可商用GPT模型,含數據集和可直接下載的預訓練模型權重
Cerebras 開源 7 個 GPT 模型,均可商用,參數量分別達到 1.11 億、2.56 億、5.9 億、13 億、27 億、67 億和 130 億。其中最大的模型參數量達到 130 億,與 Meta 最近開源的 LLaMA-13B 相當。該項目開源數據集和預訓練模型權重,其中預訓練模型權重文件大小近50G可直接下載,并且可用于商業(yè)和研究用途。與此前的 GPT-3 模型相比,Cerebras 開源的模型具有更高的可用性和透明度,研究人員和開發(fā)者可以使用少量數據對其進行微調,構建出高質量的自然語言處理應用。
獲取資源:
https://sota.jiqizhixin.com/project/cerebras-gpt

加州大學伯克利等開源Vicuna模型,基于LLaMA 13B構建可用于訓練、微調
基于 LLaMA 模型的類 ChatGPT 輕量級模型的開源,使得研究和應用門檻降低,訓練和推理成本也降低了。近日,加州大學伯克利分校、卡內基梅隆大學、斯坦福大學、加州大學圣迭戈分校的研究人員開源 Vicuna 模型,它基于 LLaMA 模型?13B 參數量的版本構建,并通過微調實現了高性能的對話生成。Vicuna 也使用了從 ShareGPT.com 收集的共享對話來微調基礎模型, Vicuna 的生成質量更好,速度也更快。
獲取資源:
https://sota.jiqizhixin.com/project/vicuna

基于LLaMA7B的聊天機器人GPT4All開源,支持在個人電腦運行
GPT4All 是基于大量干凈的助手數據(包括代碼、故事和對話)訓練而成的聊天機器人,基于?LLaMA??7B 構建,在 M1 Mac、Windows 等環(huán)境都能運行。GPT4All 在 GPT-3.5-Turbo 的 800k 條數據上進行訓練,包括文字問題、故事描述、多輪對話和代碼。當前團隊公開了收集的數據、數據整理程序、訓練代碼和最終的模型權重,此外還發(fā)布了模型的量化 4 位(quantized 4-bit)版本,這使得任何人都可以在 CPU 上運行該模型。
獲取資源:
https://sota.jiqizhixin.com/project/gpt4all-2

ColossalAI開源ColossalChat,僅需單臺服務器少量算力即可快速復現,降低應用門檻
ColossalAI 開源 ColossalChat,僅需不到百億參數,高效輕量級,降低構建和應用的高昂成本。Colossal-AI 建立了包含監(jiān)督數據集收集、監(jiān)督微調、獎勵模型訓練、強化學習微調的完整 RLHF 流程,并以 LLaMA 為基礎預訓練模型,達到 GPT-3.5 類似的效果。當前項目公開測試 Demo,可直接在線體驗模型效果,無需注冊或 waitinglist,完整 RLHF 訓練代碼,含 7B 和 13B 兩種模型;開源 104K 中、英雙語的訓練數據集;在推理部署方面,4bit 量化推理 70 億參數模型僅需 4GB 顯存,僅需單臺服務器少量算力即可快速復現。
獲取資源:
https://sota.jiqizhixin.com/project/colossalchat

Databricks開源Dolly,用Alpaca數據集微調GPT-J 6B得到,高效低成本訓練只需30分鐘
Databricks 開源大型語言模型 Dolly,訓練只需三個小時、30 美元,且只需要非常少的數據和時間即可完成訓練。Dolly 是基于 EleutherAI 在 2021 年開源的 GPT-J 自然語言處理模型創(chuàng)建的,由 60 億個參數組成,能夠與類似規(guī)模的 GPT-3 模型相媲美。盡管 Dolly 的規(guī)模比 ChatGPT 小得多,但 Databricks 表示 Dolly 具備同樣的 “高超的互動能力”,當前該項目已開源 Dolly 及其訓練數據,使得各個開發(fā)機構可以低成本構建自己的模型。
獲取資源:
https://sota.jiqizhixin.com/project/dolly

LAION開源OpenFlamingo,支持大型多模態(tài)模型訓練和評估的框架
DeepMind 的視覺語言模型 Flamingo,可將圖像、視頻和文本作為提示,并輸出相關語言,并且只需少量特定的例子,而無需額外的訓練。近日 LAION 公司開源 OpenFlamingo,它是 Flamingo 的一個開源實現,通過上下文學習訓練視覺語言模型的開源框架。OpenFlamingo 的目標是開發(fā)一個可以處理各種視覺語言任務的多模態(tài)系統,并與 GPT-4 的功能和多功能性相匹配。當前 OpenFlamingo 提供了一個支持大型多模態(tài)模型訓練和評估的框架,以及一個具有交錯圖像和文本序列的大規(guī)模多模態(tài)數據集和一個視覺語言任務的上下文學習評估基準。
獲取資源:
https://sota.jiqizhixin.com/project/openflamingo

民間版中文羊駝模型開源,中文基礎語義理解和指令執(zhí)行能力皆提升
大語言模型(LLM)如 ChatGPT、GPT-4 等展現了類通用人工智能的能力,引起廣泛關注。然而,由于它們的訓練和部署都非常昂貴。為了促進大模型在中文 NLP 社區(qū)的開放研究,本項目開源了經過中文數據預訓練的中文 LLaMA 大模型和經過指令精調的中文 Alpaca 大模型,并提供了快速本地部署和體驗量化版大模型的方法。這些模型在中文基礎語義理解能力方面有很大的提升,同時還提高了模型對指令的理解和執(zhí)行能力。
獲取資源:
https://sota.jiqizhixin.com/project/chinese-llama-alpaca

Picsart提出Text2Video-Zero,基于文本到圖像生成模型構建,無需訓練或優(yōu)化,實現低開銷、高質量的視頻生成
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
Text2Video-Zero 基于文本到圖像擴散模型構建,可用于文本到視頻生成任務,該方法無需任何訓練或優(yōu)化)。該研究用運動動力學豐富生成幀的潛在代碼,以保持全局場景和背景時間一致;以及使用第一幀上的每個幀的新的跨幀注意力來重新編程幀級自注意力,以保持前景對象的上下文、外觀和身份。當前項目提供 Hugging Face 試用基于文本到圖像擴散模型的文本到視頻生成模型,無需任何訓練或優(yōu)化,實現低開銷、高質量和顯著一致的視頻生成。
獲取資源:
https://sota.jiqizhixin.com/project/text2video-zero

得克薩斯大學等提出ChatDoctor,利用醫(yī)學領域知識對LLaMA模型進行微調,可用于患者的初診和分診
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
通用領域的大型語言模型(LLM)在遵循指令和產生類似人類的響應方面取得了顯著的成功。然而,這些語言模型并沒有在醫(yī)學領域單獨仔細地學習,導致診斷準確性差,無法為醫(yī)學診斷、藥物等提供正確的建議。該研究收集了 700 多種疾病及其相應的癥狀、推薦的藥物和所需的醫(yī)學測試,然后生成 5K 個醫(yī)患對話。利用提供的醫(yī)患對話數據集微調 LLaMA 得到的醫(yī)療對話模型,可用于患者的初診和分診。當前項目開源實現代碼、模型權重文件、訓練數據集。
獲取資源:
https://sota.jiqizhixin.com/project/chatdoctor

上海人工智能實驗室等提出LLaMA-Adapter,將LLaMA微調為指令跟隨模型,可簡單地擴展到多模態(tài)輸入
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention
該研究提出了 LLaMA Adapter,這是一種輕量級的自適應方法,可以有效地將 LLaMA 微調為指令跟隨模型,可以簡單地擴展到多模態(tài)輸入。使用 52K 自學演示,LLaMA Adapter 僅在凍結的 LLaMA 7B 模型上引入了 1.2M 個可學習參數,并且在 8 個 A100 GPU 上進行微調的成本不到一個小時。通過高效的訓練, LLaMA Adapter 可以產生高質量的響應,與完全微調 7B 參數的 LLAMA 相當。當前項目開源實現代碼、模型權重文件,可使用 LLaMA 微調后的指令跟隨模型進行推理。
獲取資源:
https://sota.jiqizhixin.com/project/llama-adapter

馬里蘭大學等提出PAniC-3D,從單張動漫人物肖像中創(chuàng)建3D說話的頭像
PAniC-3D: Stylized Single-view 3D Reconstruction from Portraits of Anime Characters
動漫風格領域對單視圖重建提出了獨特的挑戰(zhàn);與自然的人頭圖像相比,人物肖像插圖的頭發(fā)和配飾具有更復雜和多樣化的幾何形狀,并用非真實感的輪廓線進行著色。此外,缺乏適合訓練和評估這種模糊的風格化重建任務的 3D 模型和肖像插圖數據。該研究提出的 PAniC-3D 架構,對動漫人物肖像的程式化單視圖進行 3D 重建。當前項目開源實現代碼、模型文件、訓練數據集,可從單張動漫人物肖像中創(chuàng)建 3D 說話的頭像。
獲取資源:
https://sota.jiqizhixin.com/project/panic-3d

智源研究院等開源EVA-CLIP,零試圖像分類高性能的CLIP模型
EVA-CLIP: Improved Training Techniques for CLIP at Scale
該研究提出了 EVA-CLIP,這是一系列顯著提高 CLIP 訓練效率和有效性的模型。該方法結合了表示學習、優(yōu)化和增強的新技術,使 EVA-CLIP 與以前的 CLIP 模型相比,在相同數量的參數但顯著降低訓練成本的情況下,能夠實現卓越的性能。結合了幾種可以顯著降低訓練成本、穩(wěn)定訓練過程和提高零試性能的技術,包括使用預先訓練的 EVA 表示初始化 CLIP、LAMB 優(yōu)化器、隨機刪除輸入 token 和名為 flash attention 的加速技巧,能夠以較少的計算成本在規(guī)模上極大地穩(wěn)定 CLIP 模型的訓練,并且在廣泛的零試基準上以更少的樣本超過了 CLIP 訓練模型。
獲取資源:
https://sota.jiqizhixin.com/project/eva-clip

網頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務號名稱「機器之心SOTA模型」或 ID 「sotaai」,關注 SOTA!模型服務號,即可通過服務號底部菜單欄使用平臺功能,更有最新AI技術、開發(fā)資源及社區(qū)動態(tài)定期推送。?
