終于！中文基座模型CPM-Bee開源了

2023-05-27 23:15 作者:OpenBMB 0人讀過 | 我要投稿

自O(shè)penBMB開源社區(qū)成立以來，我們就堅定不移地踐行“讓大模型飛入千家萬戶”的理念，開發(fā)模型全流程加速系統(tǒng)以高效支持大模型的預(yù)訓(xùn)練、微調(diào)、應(yīng)用和推理，并發(fā)起?百億大模型訓(xùn)練直播項目CPM-Live。

終于！CPM-Live 第二階段的進度條終于拉到了100%，我們迎來了CPM-Live第二個里程碑：CPM-Bee 開源發(fā)布！

全新升級｜?CPM-Ant 蝶變 CPM-Bee

CPM（Chinese Pretrained Model) 系列大模型是我們團隊自研模型，其中包括國內(nèi)首個中文大模型 CPM-1、高效易用大模型 CPM-2、可控持續(xù)大模型 CPM-3 等。最新的百億大模型訓(xùn)練直播項目?CPM-Live?的計劃書在2022年5月26日發(fā)布，第一期模型 CPM-Ant?的訓(xùn)練在2022年5月29日正式啟動，并于2022年9月16日圓滿發(fā)布報告。

作為 CPM-Live 的第二期模型，CPM-Bee?在2022年10月13日開啟訓(xùn)練，在基礎(chǔ)能力和性能表現(xiàn)上都在 CPM-Ant 的基礎(chǔ)上進行了全新升級。CPM-Bee 一網(wǎng)打盡多種能力，可以準確地進行語義理解，高效完成各類基礎(chǔ)任務(wù)，包括：文字填空、文本生成、翻譯、問答、評分預(yù)測、文本選擇題?等等。考慮到用戶使用模型的易用性，我們在預(yù)訓(xùn)練階段將模型的輸入輸出設(shè)計成了JSON?結(jié)構(gòu)化形式，用戶只需調(diào)整不同任務(wù)字段，就可以完成各類任務(wù)。

CPM-Bee 是一個?完全開源、允許商用?的百億參數(shù)中英文基座模型。它采用 Transformer 自回歸架構(gòu)（auto-regressive），使用萬億級高質(zhì)量語料進行預(yù)訓(xùn)練，擁有強大的基礎(chǔ)能力。CPM-Bee 的特點可以總結(jié)如下：

開源可商用：OpenBMB 始終秉承“讓大模型飛入千家萬戶”的開源精神，CPM-Bee 基座模型將完全開源并且可商用，以推動大模型領(lǐng)域的發(fā)展。如需將模型用于商業(yè)用途，只需企業(yè)實名郵件申請并獲得官方授權(quán)證書，即可商用使用。
中英雙語性能優(yōu)異：CPM-Bee 基座模型在預(yù)訓(xùn)練語料上進行了嚴格的篩選和配比，同時在中英雙語上具有亮眼表現(xiàn)，具體可參見評測任務(wù)和結(jié)果。
超大規(guī)模高質(zhì)量語料：CPM-Bee基座模型在萬億級語料上進行訓(xùn)練，是開源社區(qū)內(nèi)經(jīng)過語料最多的模型之一。同時，我們對預(yù)訓(xùn)練語料進行了嚴格的篩選、清洗和后處理以確保質(zhì)量。
OpenBMB大模型系統(tǒng)生態(tài)支持：OpenBMB 大模型系統(tǒng)在高性能預(yù)訓(xùn)練、適配、壓縮、部署、工具開發(fā)了一系列工具，CPM-Bee 基座模型將配套所有的工具腳本，高效支持開發(fā)者進行進階使用。?
強大的對話和工具使用能力：結(jié)合OpenBMB 在指令微調(diào)和工具學(xué)習(xí)的探索，我們在 CPM-Bee 基座模型的基礎(chǔ)上進行微調(diào)，訓(xùn)練出了具有強大對話和工具使用能力的實例模型，現(xiàn)已開放定向邀請內(nèi)測，未來會逐步向公眾開放。

???Github地址???https://github.com/OpenBMB/CPM-Bee

???Hugging Face地址???https://huggingface.co/openbmb/cpm-bee-10b?

???CPM-Bee商用申請通道???發(fā)送申請郵件至?cpm@modelbest.cn?獲取授權(quán)證書

百煉千錘｜零樣本評測獨占鰲頭

我們對 CPM-Bee 基座模型進行了全方位的中英文能力評測。在中文的 Zero-CLUE 評測基準上，CPM-Bee 可以大幅超越其他模型，穩(wěn)居中文大模型第一。

在英文評測基準上，CPM-Bee 也?展現(xiàn)出了和開源模型 LLaMA 相當(dāng)?shù)男?/strong>果。

使用CPM-Bee提供的API 與 OpenBMB 和 THUNLP聯(lián)合自研的Decoder Tuning（ACL 2023）技術(shù)，可以在?不訪問和修改模型參數(shù)的情況下大幅提高下游任務(wù)的性能！

生態(tài)支持｜微調(diào)壓縮部署一應(yīng)俱全
基于?OpenBMB 的大模型生態(tài)系統(tǒng)，我們在訓(xùn)練 CPM-Bee 的過程中實現(xiàn)了全流程高效。同時提供了訓(xùn)練（基于 BMTrain）、微調(diào)（基于 OpenPrompt 和 OpenDelta）、外部工具使用（基于 BMTools）、模型壓縮（基于 BMCook）低資源推理（基于 BMInf）的全套腳本，可以協(xié)助開發(fā)者快速上手和使用 CPM-Bee。
基于高效微調(diào)工具 OpenDelta，我們給出了兩種微調(diào)方案：全參數(shù)微調(diào)和增量微調(diào)，可以將 CPM-Bee 適配到各類下游場景中。
基于高效壓縮工具 BMCook，我們對原始的 CPM-Bee 基座模型進行壓縮，提供了 10B、5B、2B、1B 四種大小的 CPM-Bee 模型來適應(yīng)各種不同的場景：
對于壓縮后的 CPM-Bee，普通的消費級顯卡即可完成快速推理，不同大小的模型所占用的推理資源如下：

OpenBMB 始終堅守初衷，致力于打造卓越的大規(guī)模預(yù)訓(xùn)練語言模型庫和相關(guān)工具。基于工具平臺和模型庫，我們在建設(shè)大模型開源生態(tài)的同時，也積極促進大模型的落地與廣泛應(yīng)用。
依托強大的開源基座模型 CPM-Bee，我們期待世界上涌現(xiàn)出更多精彩的大模型和大模型驅(qū)動的產(chǎn)品應(yīng)用。人工智能的大模型時代正在加速行進！

???加社群/ 提建議/ 有疑問?
請找 OpenBMB 萬能小助手：
?? 關(guān)注我們
微信搜索關(guān)注 “OpenBMB開源社區(qū)”
后臺回復(fù)“CPM-Live” 即可加入CPM-Live加油群
還可獲取更多大模型干貨知識和前沿資訊！ ??

標簽：

我喜歡()

本文作者的其他文章

終于！中文基座模型CPM-Bee開源了的評論 (共條)

分享到微博請遵守國家法律

OpenBMB
發(fā)短消息
 關(guān)注TA

你可能也喜歡這些文章

膠澳旅居艙│民宿升級首選移動建筑
科研級礦石直接上手？石頭背后的故事！【科普作者會02】
鄭州中專學(xué)校—— 鄭州電子信息中等專業(yè)學(xué)校，報考必須要知道的
WBG夏季賽大名單：Weiwei與卡薩輪換，上路沒有替補
兩首爛詩
【無機殺手主角交換AU】日光綜合癥 03
違反《商品房銷售管理辦法》，襄陽市前方房地產(chǎn)開發(fā)有限公司被罰
斗羅261話被粉絲罵慘，吐槽小舞臉崩又遭獻祭，武魂殿加戲引不滿
210 新一的試探速水雄一郎的狡辯
玩英雄聯(lián)盟電腦直接卡死問題解決方法（親測有效）2023/05

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔(dān)當(dāng)，強國復(fù)興"主題團日活動
年終總結(jié)2023，布局2024，挑一個目標置頂一整年！
12月20日維護結(jié)束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機mod，漢化游戲下載使用安裝教學(xué)！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

終于 ！中文基座模型CPM-Bee開源了

全新升級 ｜?CPM-Ant 蝶變 CPM-Bee

百煉千錘 ｜零樣本評測獨占鰲頭

生態(tài)支持｜微調(diào)壓縮部署一應(yīng)俱全

?? 關(guān)注我們

本文作者的其他文章