最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【發(fā)布】LongBench 衡量模型的「長」,更有chatglm2-6B-32k 更新

2023-07-31 19:47 作者:ChatGLM  | 我要投稿


上下文窗口大小是影響模型解決更廣泛問題的重要維度之一。近期包括 ChatGLM2 等在內(nèi)的多個模型都在努力嘗試在保證性能的同時,將模型上下文長度盡可能地拓展,達到千/萬 tokens 級別。

然而,現(xiàn)有的模型評測集長度多數(shù)比較短,僅在百/千 tokens 量級,并不能很好地評測模型的長文本理解能力,尤其是中文的長文本理解能力。

為了解決這一問題,GLM 技術(shù)團隊基于內(nèi)部長期的探索,開發(fā)了專門針對模型長文本理解能力的評測數(shù)據(jù)集 LongBench。

該數(shù)據(jù)集包含了?13 個英文任務(wù)、5個中文任務(wù)和?2 個代碼任務(wù)。多數(shù)任務(wù)的平均長度在5k-15k之間,共包含約4500條測試數(shù)據(jù)。

從主要任務(wù)分類上,LongBench包含單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等六大類任務(wù) 20?個不同子任務(wù)。

具體來說,LongBench?有以下特點:

雙語:LongBench 能夠針對中、英雙語的長文本進行更全面的評估。

多任務(wù):LongBench由六大類、二十個不同的任務(wù)組成,覆蓋了單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等關(guān)鍵的長文本應(yīng)用場景。

自動評測:我們深知模型評測過程中可能產(chǎn)生的高昂成本,尤其是長文本場景下(如人工標注成本或API調(diào)用成本)。因此,我們采用了一種全自動的評測方式,旨在以最低的成本,最有效地衡量和評估模型的長文本理解能力。

利用該評測數(shù)據(jù)集,我們分別對?GPT-3.5-Turbo-16k、Llama2-7B-chat-4k、LongChat-7B-16k、XGen-7B-8k、InternLM-7B-8k、ChatGLM2-6B、ChatGLM2-6B-32k*?等 7 個支持長文本的模型的性能。


其中,ChatGLM2-6B-32K?在 ChatGLM2-6B 的基礎(chǔ)上進一步強化了對于長文本的理解能力,能夠更好的處理最多32K長度的上下文。具體地,我們基于位置插值(Positional Interpolation)的方法對位置編碼進行了更新,并在對話階段使用 32K 的上下文長度訓(xùn)練。?


下載使用:?

- Github:https://github.com/THUDM/ChatGLM2-6B
- HF:https://huggingface.co/THUDM/chatglm2-6b-32k

如下所示:

不同長度文本下的能力變化

為了更有針對性地分析模型在不同文本長度下的相對表現(xiàn),下圖展示了模型在不同文本長度區(qū)間上,所有任務(wù)上的平均相對分數(shù)。

我們希望,該數(shù)據(jù)集能夠幫助評估模型在長文本理解方面的表現(xiàn),促進模型的進一步發(fā)展和改進。

更多細節(jié),

- Github:

https://github.com/THUDM/LongBench

- HF:

https://huggingface.co/datasets/THUDM/LongBench

【發(fā)布】LongBench 衡量模型的「長」,更有chatglm2-6B-32k 更新的評論 (共 條)

分享到微博請遵守國家法律
神木县| 长治县| 通许县| 米脂县| 东山县| 津市市| 股票| 通化县| 弥渡县| 滁州市| 绥阳县| 邮箱| 栾川县| 云南省| 长沙市| 松阳县| 台前县| 河北区| 普宁市| 平安县| 孟州市| 平邑县| 湖北省| 蒙城县| 扎兰屯市| 博罗县| 南昌市| 和平区| 宽甸| 宣威市| 凤冈县| 凤翔县| 海晏县| 水富县| 儋州市| 财经| 湖口县| 中阳县| 乌拉特后旗| 岳阳县| 万盛区|