散文網(wǎng) » 科技 »數(shù)碼 » 【發(fā)布】代碼模型 CodeGeeX2-6B 開源，最低6GB顯存，性能優(yōu)于StarCoder

【發(fā)布】代碼模型 CodeGeeX2-6B 開源，最低6GB顯存，性能優(yōu)于StarCoder

2023-07-25 13:10 作者:ChatGLM 0人讀過 | 我要投稿

我們希望每一位程序員，都能在自己機器上跑上一個自己的編程助手。

為實現(xiàn)這一目標，我們現(xiàn)將「代碼生成模型 CodeGeeX2-6B」開源。同時我們也將對該模型持續(xù)進行迭代升級，以提供更加強大的代碼輔助能力。

CodeGeeX2 是多語言代碼生成模型 CodeGeeX 的第二代模型，基于 ChatGLM2 架構注入代碼實現(xiàn)。得益于 ChatGLM2 的更優(yōu)性能，CodeGeeX2-6B 在多項指標上取得了較大的性能提升。與 150 億參數(shù)的 StarCoder-15B 相比，CodeGeeX2-6B 憑借 60 億參數(shù)便具備了近 10% 的優(yōu)勢。

更多特性包括：

更強大的代碼能力：基于 ChatGLM2-6B 基座語言模型，CodeGeeX2-6B 進一步經(jīng)過了 600B 代碼數(shù)據(jù)預訓練，相比一代模型，在代碼能力上全面提升，HumanEval-X 評測集的六種編程語言均大幅提升 (Python +57%, C++ +71%, Java +54%, JavaScript +83%, Go +56%, Rust +321%)，在Python上達到 35.9% 的 Pass@1 一次通過率，超越規(guī)模更大的 StarCoder-15B。
更優(yōu)秀的模型特性：繼承 ChatGLM2-6B 模型特性，CodeGeeX2-6B 更好支持中英文輸入，支持最大 8192 序列長度，推理速度較一代 CodeGeeX-13B 大幅提升，量化后僅需6GB顯存即可運行，支持輕量級本地化部署。
更全面的AI編程助手：CodeGeeX插件（VS Code, Jetbrains）后端升級，支持超過100種編程語言，新增上下文補全、跨文件補全等實用功能。結合 Ask CodeGeeX 交互式AI編程助手，支持中英文對話解決各種編程問題，包括且不限于代碼解釋、代碼翻譯、代碼糾錯、文檔生成等，幫助程序員更高效開發(fā)。
更開放的協(xié)議：CodeGeeX2-6B 權重對學術研究完全開放，填寫問卷可申請商業(yè)使用。