GPT4正式發(fā)布!支持圖片理解,文字輸入限制提升至2.5萬字



本周帶來的?5?個?SOTA?模型分別用于聊天對話、內(nèi)容生成、多任務(wù)語言理解、實例分割;5個工具用于聊天對話、內(nèi)容生成應(yīng)用開發(fā)、模型開發(fā)框架、文生圖。

OpenAI發(fā)布GPT4,支持圖片輸入,文字輸入限制提升至2.5萬字
GPT-4 Technical Report
OpenAI 正式發(fā)布多模態(tài)預訓練大模型 GPT4,實現(xiàn)以下能力飛躍式提升:能接受圖像和文本輸入,再輸出正確的文本回復,擁有強大的識圖能力。文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創(chuàng)意文本,實現(xiàn)風格變化。正式發(fā)布前,OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經(jīng)驗教訓對 GPT-4 進行迭代調(diào)整 ,在真實性、可控性等方面取得了有史以來最好的結(jié)果,在 OpenAI 的內(nèi)部對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%。
獲取資源:
https://sota.jiqizhixin.com/project/gpt4

斯坦福發(fā)布Alpaca,在LLaMA 7B基礎(chǔ)上微調(diào)52K指令數(shù)據(jù)得到的輕量級語言模型
斯坦?;?Meta 的 LLaMA 7B 模型微調(diào)出一個新模型 Alpaca。在生成高質(zhì)量指令遵循數(shù)據(jù)方面,使用了 OpenAI 的 text-davinci-003 模型以 self-instruct 方式生成 52K 指令遵循(instruction-following)樣本,并以此作為 Alpaca 的訓練數(shù)據(jù)。Alpaca 表現(xiàn)與 text-davinci-003 類似,性能可媲美 GPT-3.5。目前斯坦福已將訓練數(shù)據(jù)、生成訓練數(shù)據(jù)的代碼和超參數(shù)開源,后續(xù)還將發(fā)布模型權(quán)重和訓練代碼。
獲取資源:
https://sota.jiqizhixin.com/project/alpaca

谷歌發(fā)布PaLM API,供開發(fā)者接入大模型用于對話等應(yīng)用開發(fā)
谷歌發(fā)布 PaLM API ,開發(fā)者可以使用 PaLM API 訪問 Google 大型語言模型,它將為開發(fā)者提供面向?qū)喗换ザ鴥?yōu)化的模型,如內(nèi)容生成與對話,可用于各種應(yīng)用程序開發(fā)。它也能為開發(fā)者提供摘要、分類等多種任務(wù)的通用模型。PaLM 是谷歌基于 Pathways 系統(tǒng)訓練的一個 5400 億參數(shù)的大型語言模型,在數(shù)百個語言理解和生成任務(wù)上,實現(xiàn)了 SOTA 少樣本學習性能,可以出色地完成笑話解讀、bug 修復、從表情符號中猜電影等語言、代碼任務(wù)。目前,谷歌定向選定的開發(fā)人員提供這些工具,而非全面開放。
獲取資源:
https://sota.jiqizhixin.com/project/palm-api

百度發(fā)布知識增強大語言模型文心一言,專注中文理解與生成
頂著 GPT-4 帶來的壓力,百度正式發(fā)布了知識增強大語言模型文心一言,專注中文理解與生成,能夠進行文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解和多模態(tài)生成。文心一言基于知識增強千億大模型 ERNIE,同時借鑒了文心對話大模型 PLATO,二者的技術(shù)都在文心一言身上得到了延伸,在訓練過程中不斷改進。文心一言包含六個核心技術(shù)模塊,分別是有監(jiān)督精調(diào)、人類反饋的強化學習、提示以及知識增強、檢索增強和對話增強。當前可通過邀請碼體驗文心一言效果。
獲取資源:
https://sota.jiqizhixin.com/project/wen-xin-yi-yan

ChatGPT最強競品Claude開放API,原GPT-3核心成員打造
Anthropic 開放 Claude?API ,Claude 被稱為?ChatGPT 最強競品,由原 GPT-3 核心成員打造。Claude 目標是成為安全、接近人類價值觀且合乎道德規(guī)范的 AI 系統(tǒng),和 ChatGPT 類似,Claude 具有高超的對話能力,能夠處理總結(jié)、搜索、創(chuàng)意、寫作問答等任務(wù)。當前官方開放申請體驗地址以及 API 使用說明。
獲取資源:
https://sota.jiqizhixin.com/project/claude-api

PyTorch 2.0正式版發(fā)布,訓練速度快、可用性強100%向后兼容
PyTorch 2.0 延續(xù)了之前的 eager 模式,從根本上改進了 PyTorch 在編譯器級別的運行方式,將性能推向新的高度。torch.compile 是一個完全附加的(可選的)特性,因此 PyTorch 2.0 是 100% 向后兼容的,其能夠在 165 個開源模型上運行,并且在 float32 精度下平均運行速度提高 20%,在 AMP 精度下平均運行速度提高 36%。在模型開發(fā)上,新版本引入了對訓練和推理的高性能支持,使用自定義內(nèi)核架構(gòu)實現(xiàn)縮放點積注意力 (SPDA),顯著提升了模型速度。
獲取資源:
https://sota.jiqizhixin.com/project/pytorch

清華大學基于GLM開源支持中英雙語的對話語言模型ChatGLM,具有62億參數(shù)
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù)。結(jié)合模型量化技術(shù),用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。ChatGLM-6B 使用了和 ChatGPT 相似的技術(shù),針對中文問答和對話進行了優(yōu)化。經(jīng)過約 1T 標識符的中英雙語訓練,輔以監(jiān)督微調(diào)、反饋自助、人類反饋強化學習等技術(shù)的加持,62 億參數(shù)的 ChatGLM-6B 已經(jīng)能生成相當符合人類偏好的回答。
獲取資源:
https://sota.jiqizhixin.com/project/chatglm

斯坦福等團隊開源FlexGen,單GPU大型語言模型的高吞吐生成式引擎
High-throughput Generative Inference of Large Language Models with a Single GPU
大型語言模型(LLM)推理的高計算量和高內(nèi)存需要通過多個高端加速器來實現(xiàn)。出于對分批處理的延遲不敏感任務(wù)的新需求,該研究提出 FlexGen,可在有限的 GPU 內(nèi)存中運行 LLM 的高吞吐量生成引擎。FlexGen 可在各種硬件資源限制下靈活配置,通過聚合 GPU、CPU 和磁盤的內(nèi)存和計算。通過線性編程優(yōu)化器,來搜索有效的模式來存儲和訪問張量。FlexGen 進一步將權(quán)重和注意力緩存壓縮到 4 bits,使大型語言模型在單個 GPU 上高吞吐地生成,精度損失可忽略不計。
獲取資源:
https://sota.jiqizhixin.com/project/flexgen

清華等推出首個基于Transformer的多模態(tài)擴散大模型UniDiffuser,實現(xiàn)文圖互生、改寫
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
該研究提出了一個為多模態(tài)設(shè)計的概率建??蚣?UniDiffuser,并采用該團隊提出的基于 Transformer 的網(wǎng)絡(luò)架構(gòu) U-ViT,在開源的大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓練了一個十億參數(shù)量的模型,使得一個底層模型能夠高質(zhì)量地完成多種生成任務(wù),例如文生圖、圖生文、圖文聯(lián)合生成、無條件圖文生成、圖文改寫等,大幅提升文圖內(nèi)容的生產(chǎn)效率,也進一步提升了生成式模型的應(yīng)用想象力。
獲取資源:
https://sota.jiqizhixin.com/project/unidiffuser

大連理工大學等提出通用實例感知模型UNINEXT,統(tǒng)一的對象發(fā)現(xiàn)和檢索范式
Universal Instance Perception as Object Discovery and Retrieval
大連理工用一套模型參數(shù)高效表示實例感知任務(wù),提出了一個新的通用實例感知模型,稱為 UNINEXT。UNINEXT 將不同的實例感知任務(wù)重新表述為一個統(tǒng)一的對象發(fā)現(xiàn)和檢索范式,并且可以通過簡單地改變輸入提示來靈活地感知不同類型的對象,節(jié)省冗余計算。UNINEXT 在 10個實例級任務(wù)的 20 個挑戰(zhàn)性基準上顯示了卓越的性能,包括經(jīng)典的圖像級任務(wù)(物體檢測和實例分割)、視覺和語言任務(wù)(指代表達理解和分割)以及六個視頻級物體跟蹤任務(wù)。
獲取資源:
https://sota.jiqizhixin.com/project/uninext


網(wǎng)頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關(guān)注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務(wù)號名稱「機器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號,即可通過服務(wù)號底部菜單欄使用平臺功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動態(tài)定期推送。?
