ChatGLM-6B V2開源(可申請商用);快HF24倍+高吞吐量LLM推理庫vllm開源



本周帶來的?6?個模型項目分別用于中英對話、視覺分割、文本到圖像生成、視頻生成等;4?個工具項目用于大型語言模型推理、3D場景生成、問答系統(tǒng)構(gòu)建;1 個數(shù)據(jù)集用于醫(yī)學(xué)視覺問答。
ChatGLM-6B第二代版本發(fā)布,中英雙語對話性能大幅提升,支持更長上下文和更高效推理,權(quán)重開放商業(yè)使用
近日,ChatGLM-6B 發(fā)布第二代版本 ChatGLM2-6B,該模型支持中英對話,在保留了初代模型對話流暢、部署門檻較低等眾多優(yōu)秀特性的基礎(chǔ)上,引入了更強大的性能、更長的上下文、更高效的推理和更開放的協(xié)議等新特性。其中,ChatGLM2-6B 在 MMLU、CEval、GSM8K、等數(shù)據(jù)集上的性能取得了大幅度的提升,在同尺寸開源模型中具有較強的競爭力。ChatGLM2-6B 的上下文長度擴展到了 32K,并使用 8K 的上下文長度訓(xùn)練,允許更多輪次的對話。基于 Multi-Query Attention 技術(shù),ChatGLM2-6B 有更高效的推理速度和更低的顯存占用。ChatGLM2-6B 的權(quán)重對學(xué)術(shù)研究完全開放,申請后可允許商業(yè)使用。
獲取資源:
https://sota.jiqizhixin.com/project/chatglm2-6b

伯克利開源高吞吐量LLM推理服務(wù)庫vllm,比HF Transformers高出最多24倍,與HuggingFace模型無縫集成
vllm 是一款易于使用、快速且廉價的 LLM(Language Model)服務(wù)庫。它的吞吐量比 HuggingFace Transformers 高出最多 24 倍,比 Text Generation Inference 高出最多 3.5 倍,具有出色的推理吞吐量、對注意力鍵和值內(nèi)存的高效管理、動態(tài)批處理、優(yōu)化的 CUDA 內(nèi)核等特點。vllm 能夠與流行的 HuggingFace 模型無縫集成,支持高吞吐量的服務(wù)和各種解碼算法,并提供 Tensor 并行支持和流式輸出。它支持多種 HuggingFace 模型,包括 GPT-2、GPTNeoX、LLaMA 和 OPT。
獲取資源:
https://sota.jiqizhixin.com/project/vllm

艾倫人工智能實驗室等提出大模型集成框架LLM-Blender,通過集合多個開源大模型來提高模型性能
LLM-Blender 是一個大型模型集成框架,旨在幫助開發(fā)者通過集合多個開源大型模型的優(yōu)勢來提高模型性能。該框架包含兩個模塊:PairRanker 和 GenFuser。PairRanker 模塊基于 BERT 結(jié)構(gòu)的編碼器,通過雙向注意機制對不同模型的輸出結(jié)果進行比較排序。GenFuser 模塊將排名前 N 的輸出結(jié)果進行融合生成,從而生成最佳答案。LLM-Blender 通過減少單個模型的弱點和整合多個模型的優(yōu)勢來提高模型性能,是一個創(chuàng)新集成框架。
獲取資源:
https://sota.jiqizhixin.com/project/llm-blender

中科院發(fā)布SAM的高效替代模型FastSAM,用2%的數(shù)據(jù)集訓(xùn)練,可在50倍速度下實現(xiàn)與SAM相當?shù)男阅?/strong>
SAM 在圖像分割、圖像描述和圖像編輯等高級任務(wù)中已經(jīng)產(chǎn)生了重大影響,但該模型所需巨大的計算成本使得它無法廣泛應(yīng)用于工業(yè)場景中。FastSAM 是一種用于計算機視覺任務(wù)的高效 Segment Anything Model(SAM)的替代方法。FastSAM 是一個 CNN Segment Anything Model,僅使用 SAM 作者發(fā)布的 2%的 SA-1B 數(shù)據(jù)集進行訓(xùn)練,可以在 50 倍的運行時速度下實現(xiàn)與 SAM 方法相當?shù)男阅堋?/p>
獲取資源:
https://sota.jiqizhixin.com/project/fastsam

Stability AI發(fā)布Stable Diffusion新版本,包括35 億+66億雙模型,生成圖像質(zhì)量大幅提升
Stability AI 發(fā)布 Stable Diffusion 的 XL 0.9 版本(SDXL 0.9),搭載最大 OpenCLIP,大幅提升圖片生成的質(zhì)量,參數(shù)上,SDXL0.9 具有 35 億參數(shù)基礎(chǔ)模型和 66 億參數(shù)模型。相比之前版本,SD-XL 具有以下改進:使用較短的描述性 prompt 即可生成高質(zhì)量圖像;可以生成更貼合 prompt 的圖像;圖像中的人體結(jié)構(gòu)更合理;與之前版本相比,生成的圖片更符合大眾審美;負面提示詞是可選項;生成的肖像圖更逼真;圖像中的文本更清晰。
獲取資源:
https://sota.jiqizhixin.com/project/sd-xl

普林斯頓大學(xué)提出自動化生成自然界3D場景的生成器Infinigen,可用于生成各種視覺任務(wù)的多樣化訓(xùn)練數(shù)據(jù)
大規(guī)模標記數(shù)據(jù)對計算機視覺進展是非常具有重要性的,可以通過生成帶有高質(zhì)量標簽的無限數(shù)量的合成數(shù)據(jù)來達成。然而,目前公開的合成數(shù)據(jù)集通常只涵蓋狹窄的物體和形狀范圍,而且多為室內(nèi)環(huán)境或人造對象。為此,普林斯頓大學(xué)的研究者們提出自動化生成自然界逼真 3D 場景的程序生成器 Infinigen,可用于生成各種計算機視覺任務(wù)的無限多樣化的訓(xùn)練數(shù)據(jù),包括目標檢測、語義分割、光流和三維重建。
獲取資源:
https://sota.jiqizhixin.com/project/infinite

指令跟隨大規(guī)模語言模型BayLing,支持多語言性能媲美GPT-3.5-turbo,適用于翻譯、寫作和創(chuàng)作等任務(wù)
BayLing 是一個指令跟隨大規(guī)模語言模型,通過對 LLM 的基礎(chǔ)模型進行語言特定的訓(xùn)練和指令構(gòu)建,實現(xiàn)了對非英語語言的支持,同時擁有強大的語言生成和指令跟隨能力。BayLing 使用 LLaMA 作為基礎(chǔ)模型,并自動構(gòu)建交互翻譯指令進行指令調(diào)優(yōu)。在多輪指令測試集 BayLing-80 上的實驗結(jié)果顯示,BayLing 的性能達到了 GPT-3.5-turbo 的 89%。此外,BayLing 在中文高考和英文 SAT 的知識評估中表現(xiàn)出色,僅次于 GPT-3.5-turbo。BayLing 可以在 16GB 顯存的消費級 GPU 上部署,幫助用戶完成翻譯、寫作、創(chuàng)作、建議等任務(wù)。
獲取資源:
https://sota.jiqizhixin.com/project/bayling

武漢大學(xué)發(fā)布金融技術(shù)應(yīng)用項目PIXIU,涵蓋金融大模型、指令調(diào)優(yōu)數(shù)據(jù)、全面評估的基準
金融技術(shù) (FinTech) 中自然語言處理 (NLP) 和機器學(xué)習 (ML) 技術(shù)的進步實現(xiàn)了從預(yù)測股價走勢到高級金融分析的多種功能。PIXIU 項目中開源了金融大型語言模型 、指令調(diào)優(yōu)數(shù)據(jù)和評估基準,旨在提高金融領(lǐng)域中 NLP 和 ML 技術(shù)的應(yīng)用效果。該項目了金融大模型 FinMA,其使用 PIXIU 中構(gòu)建的數(shù)據(jù)集微調(diào) LLaMA;大規(guī)模、高質(zhì)量的多任務(wù)、多模態(tài)金融指令調(diào)優(yōu)數(shù)據(jù) FIT;用于評估金融大模型的評估基準 FLARE。
獲取資源:
https://sota.jiqizhixin.com/project/pixiu

開源企業(yè)級問答系統(tǒng)Danswer,支持自然語言提問和多種常見工具連接,可一鍵部署和個性化搜索
Danswer 是一個開源企業(yè)級問答系統(tǒng),支持自然語言提問和多種常見工具連接,包括直接問答、智能文檔檢索和 AI 助手等功能。Danswer 支持用戶認證和文檔級的訪問管理,提供個性化搜索和一鍵部署等特性。使用最新的 LLMs 實現(xiàn)了智能文檔檢索和 AI 助手,支持 Slack、GitHub、Confluence 等多種工具連接。Danswer 還提供管理儀表板,方便管理連接器和設(shè)置實時更新等功能。只需一行 Docker Compose(或 Kubernetes)部署,即可在任何地方托管 Danswer。
獲取資源:
https://sota.jiqizhixin.com/project/danswer

可控視頻擴散模型VideoComposer,實現(xiàn)同時控制空間和時間模式的視頻合成
VideoComposer 是一種可控的視頻擴散模型,可讓開發(fā)者在各種形式的合成視頻中同時靈活地控制空間和時間模式,如文本描述、草圖序列、參考視頻,甚至是簡單的手工動作和手繪圖。VideoComposer 基于組合生成范例,通過引入壓縮視頻中的運動向量作為明確的控制信號,提供關(guān)于時間動態(tài)的指導(dǎo),從而克服了實現(xiàn)可控視頻合成的挑戰(zhàn)。同時,通過空間-時間條件編碼器(STC-encoder),提高了模型利用時間條件的效果,實現(xiàn)了更高的幀間一致性。VideoComposer 能夠在各種形式的合成視頻中同時控制空間和時間模式,如文本描述、草圖序列、參考視頻,甚至是簡單的手工動作和手繪圖。
獲取資源:
https://sota.jiqizhixin.com/project/videocomposer

大規(guī)模醫(yī)學(xué)視覺問答數(shù)據(jù)集PMC-VQA,涵蓋多種模態(tài)/疾病的149k張圖像,包含227k個VQA對
缺乏大規(guī)模、多模態(tài)的醫(yī)學(xué)視覺問答數(shù)據(jù)集是有效生成 MedVQA 模型的重要障礙。PMC-VQA 是一個大規(guī)模醫(yī)學(xué)視覺問答數(shù)據(jù)集,包含 149k 張圖像和 227k 個 VQA 對,覆蓋了多種模態(tài)和疾病。PMC-VQA 使用一種可擴展和自動化的方法創(chuàng)建得到,其使用 PMC-OA 作為源數(shù)據(jù),通過 ChatGPT 自動生成高質(zhì)量的問答對,并經(jīng)過嚴格過濾和格式化,最終獲得了 1,497,808 個問題-答案對。這些問答對與原始圖像的鏈接自然地找到對應(yīng)的圖像,平均每張圖像有 3.93 個問答對。PMC-VQA 數(shù)據(jù)集的構(gòu)建旨在為醫(yī)學(xué)視覺問答研究和應(yīng)用提供更加豐富和真實的數(shù)據(jù)支持。
獲取資源:
https://sota.jiqizhixin.com/project/pmc-vqa


網(wǎng)頁端訪問: 在瀏覽器地址欄輸入新版站點地址 sota.jiqizhixin.com ,即可前往「SOTA!模型」平臺,查看關(guān)注的模型是否有新資源收錄。?
移動端訪問:在微信移動端中搜索服務(wù)號名稱「機器之心SOTA模型」或 ID 「sotaai」,關(guān)注 SOTA!模型服務(wù)號,即可通過服務(wù)號底部菜單欄使用平臺功能,更有最新AI技術(shù)、開發(fā)資源及社區(qū)動態(tài)定期推送。
