Llama2開源編程版模型CodeLlama(含7/13/34B);法律智海錄問模型等項目開源



本周帶來的?10?個模型項目分別用于代碼生成、圖文對話、多語言翻譯、法律知識問答、視頻風(fēng)格遷移等。
Meta開源代碼編程任務(wù)微調(diào)版Llama2模型CodeLlama,參數(shù)涵蓋7B、13B和34B?
Meta 開源的針對代碼編程任務(wù)進(jìn)行了微調(diào)的 Llama2 版模型 Llama2,支持大型輸入上下文,以及編程任務(wù)的零樣本指令跟隨能力。提供多種版本以覆蓋廣泛的應(yīng)用程序:基礎(chǔ)模型(CodeLlama),Python 專業(yè)化(CodeLlama - Python)和指令跟隨模型(CodeLlama - Instruct),每個模型都有 7B、13B 和 34B 參數(shù)。所有模型都在 16k tokens 的序列上進(jìn)行訓(xùn)練,并在最多 100k tokens 的輸入上顯示改進(jìn)。7B 和 13B CodeLlama 和 CodeLlama - Instruct 變體支持基于周圍內(nèi)容的填充。CodeLlama 是通過使用更高的代碼采樣對 Llama 2 進(jìn)行微調(diào)而開發(fā)的。
獲取資源:
https://sota.jiqizhixin.com/project/codellama

Huggingface開源80B規(guī)模視覺語言模型,基于Flamingo模型增強(qiáng),同時開源數(shù)據(jù)集OBELICS
IDEFICS 是一個 80B 規(guī)模開源視覺語言模型,基于 Flamingo 模型進(jìn)行增強(qiáng),支持圖像和文本作為輸入,并生成連貫的文本輸出。它完全基于公開可用的數(shù)據(jù)和模型構(gòu)建,并提供兩個版本,參數(shù)大小分別為 90 億和 800 億。發(fā)布 IDEFICS 是為了為多模態(tài) AI 系統(tǒng)的開放研究提供一個堅實的基礎(chǔ),同時為 AI 系統(tǒng)的透明度做出重要貢獻(xiàn)。同時,開放的還有 OBELICS,一個開放的大型數(shù)據(jù)集,由 1.41 億個網(wǎng)頁、3.53 億張圖像和 1150 億文本 Token 組成。
獲取資源:
https://sota.jiqizhixin.com/project/idefics

Meta開源大規(guī)模多語言和多模態(tài)機(jī)器翻譯模型SeamlessM4T,支持近100種語言翻譯、轉(zhuǎn)錄語音和文本
SeamlessM4T 是一種支持近 100 種語言的多語言和多模態(tài)機(jī)器翻譯模型,該模型采用了自我監(jiān)督學(xué)習(xí)和多模態(tài)數(shù)據(jù)對齊等先進(jìn)技術(shù),構(gòu)建了一個單一的模型,可以實現(xiàn)多語言翻譯,提高了翻譯質(zhì)量和效率。在 FLEURS 上的測試中,SeamlessM4T 取得了比之前 SOTA 模型提高 20% BLEU 的成績,并在語音到文本和語音到語音翻譯中,分別比強(qiáng)大的級聯(lián)模型提高了 1.3 BLEU 和 2.6 ASR-BLEU 點的質(zhì)量。此外,SeamlessM4T 在語音到文本任務(wù)中對背景噪聲和說話者變化的表現(xiàn)也比當(dāng)前 SOTA 模型更好,證明了其在實際應(yīng)用中的可靠性。
獲取資源:
https://sota.jiqizhixin.com/project/seamlessm4t

阿里云開源大規(guī)模視覺語言模型Qwen-VL,新增視覺定位、圖像文字描述能力
阿里云開源的大規(guī)模視覺語言模型 Qwen-VL,包含基礎(chǔ)模型和對齊模型兩個版本。該模型可將圖像、文本、檢測框作為輸入,并以文本和檢測框作為輸出,可用于知識問答、圖像標(biāo)題生成、圖像問答、文檔問答、細(xì)粒度視覺定位等場景。基礎(chǔ)模型以 Qwen-7B 的預(yù)訓(xùn)練模型作為語言模型的初始化,并以 Openclip ViT-bigG 作為視覺編碼器的初始化,中間加入單層隨機(jī)初始化的 cross-attention,經(jīng)過約 1.5B 的圖文數(shù)據(jù)訓(xùn)練得到,可輸入分辨率為 448 的圖像。Qwen-VL-Chat 在 Qwen-VL 的基礎(chǔ)上,使用對齊機(jī)制構(gòu)建,支持更靈活的交互方式,包括多圖、多輪問答、創(chuàng)作等能力。
獲取資源:
https://sota.jiqizhixin.com/project/qwen-vl-tong-yi-qian-wen

上下文長度達(dá)32k的開源可商用大模型,基于LLaMa-13B和LLaMa2-13B訓(xùn)練
Abacus.AI 發(fā)布三個新的 13B 參數(shù)長上下文模型 Giraffe,包括兩個基于? LLaMA-13B 訓(xùn)練而成的模型:上下文長度分別為 4k 和 16k;一個基于 LLaMA2-13B 訓(xùn)練而成的模型,上下文長度是? 32k,該模型也是首個基于 LLaMA2 的 32k 上下文窗口開源 LLM。可以處理長序列和復(fù)雜的語言任務(wù),在各種語言任務(wù)和數(shù)據(jù)集上表現(xiàn)出色,特別是在處理長序列和擴(kuò)展上下文長度方面表現(xiàn)突出。此外,Giraffe 創(chuàng)新性提出了截斷的方法,并提供了多種上下文長度外推方法,可以根據(jù)不同的任務(wù)和數(shù)據(jù)集選擇最適合的方法,并且可以通過 HuggingFace API 方便地使用。
獲取資源:
https://sota.jiqizhixin.com/project/giraffe-2

法律大模型智海-錄問,基于Baichuan-7B進(jìn)行二次預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練
智海-錄問(wisdomInterrogatory)是由浙江大學(xué)、阿里巴巴達(dá)摩院以及華院計算三家單位共同設(shè)計研發(fā)的法律大模型,基于 Baichuan-7B 模型基座,進(jìn)行了二次預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練。二次預(yù)訓(xùn)練為通用的大模型注入了法律領(lǐng)域的知識。在指令微調(diào)階段,使用了 100k 的指令微調(diào)訓(xùn)練,以使大模型具備問答能力,能夠直接與用戶進(jìn)行交流。智海-錄問通過構(gòu)建知識庫,并進(jìn)行意圖識別、知識檢索、知識融合,實現(xiàn)模型增強(qiáng),以為法律智能化體系入司法實踐、數(shù)字化案例建設(shè)、虛擬法律咨詢服務(wù)賦能等方面提供支持。
獲取資源:
https://sota.jiqizhixin.com/project/wisdominterrogatory

香港科技大學(xué)等團(tuán)隊發(fā)布新的視頻處理算法CoDeF,基于輸入的提示詞精準(zhǔn)控制視頻,可改變完整視頻的畫風(fēng)
CoDeF 是一種新型視頻處理算法,可基于輸入的提示詞改變完整視頻的畫風(fēng)。該算法將輸入視頻分解為靜態(tài)內(nèi)容場和時間變形場。前者用于聚合整個視頻中的靜態(tài)內(nèi)容,后者則負(fù)責(zé)記錄圖像沿時間軸的每個單獨幀的轉(zhuǎn)換過程。CoDeF 能夠自然地支持將圖像算法用于視頻處理,并在處理視頻時實現(xiàn)更好的跨幀一致性。這種表示方式可輕松地將圖像算法應(yīng)用于視頻處理,具有廣泛的應(yīng)用前景,如視頻處理、計算機(jī)視覺、多媒體處理等領(lǐng)域。
獲取資源:
https://sota.jiqizhixin.com/project/codef

基于LLaMa2 70B開源的大型語言模型Lemur,可平衡文本和代碼生成,含預(yù)訓(xùn)練和微調(diào)兩個版本
傳統(tǒng)上,開源大語言模型 (LLM) 是為文本或代碼相關(guān)任務(wù)量身定制的,很難有效平衡兩者的能力有限。然而,許多復(fù)雜的語言應(yīng)用程序,特別是語言模型代理,需要具有多方面技能的系統(tǒng),包括理解、推理、規(guī)劃、編碼和上下文基礎(chǔ)。開源大型語言模型 Lemur,發(fā)布了預(yù)訓(xùn)練模型 Lemur-70B-v1 和監(jiān)督微調(diào) Lemur-70B-chat-v1 版本,可平衡文本和代碼生成。Lemur-70B-v1 模型基于 LLaMa-2 70B 初始化,并在 100B 文本和代碼數(shù)據(jù)上進(jìn)一步訓(xùn)練;Lemur-70B-chat-v1 模型基于有監(jiān)督的微調(diào)數(shù)據(jù)初始化并繼續(xù)訓(xùn)練。
獲取資源:
https://sota.jiqizhixin.com/project/lemur

開源專家混合(MoE)大型語言模型系列,基于ST-MoE的解碼器架構(gòu)
OpenMoE 是開源專家混合(MoE)大型語言模型,使用高比例的編碼數(shù)據(jù)來提高推理能力,使用 umt5 ?Tokenizer 來支持將來的多語言繼續(xù)學(xué)習(xí),可以在 Huggingface 或 Google ?Cloud 上下載。OpenMoE 基于 ST-MoE,但使用僅解碼器架構(gòu),RoPE,SwiGLU 激活,2K 上下文長度。目前開源三個版本的模型,包括 OpenMoE-base/16E、OpenLLaMA-base,以及 OpenMoE-8B/32E。
獲取資源:
https://sota.jiqizhixin.com/project/openmoe

文本驅(qū)動的視頻編輯框架StableVideo,可實現(xiàn)一致性感知的視頻編輯
StableVideo 是一種基于擴(kuò)散模型的文本驅(qū)動視頻編輯方法,該模型通過引入時間依賴性,使得編輯后的視頻對象在不同時間幀中具有一致性。這種方法基于分層表示的概念,通過幀間傳播機(jī)制來傳遞外觀信息,從而實現(xiàn)對視頻的編輯。實驗結(jié)果表明,與其他基于擴(kuò)散的視頻編輯方法相比,StableVideo 在定性和定量方面都表現(xiàn)出了優(yōu)越的視頻編輯結(jié)果。
獲取資源:
https://sota.jiqizhixin.com/project/stablevideo


網(wǎng)頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關(guān)注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務(wù)號名稱「機(jī)器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號,即可通過服務(wù)號底部菜單欄使用平臺功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動態(tài)定期推送。?
