【發(fā)布】LongBench 衡量模型的「長」,更有chatglm2-6B-32k 更新


上下文窗口大小是影響模型解決更廣泛問題的重要維度之一。近期包括 ChatGLM2 等在內(nèi)的多個模型都在努力嘗試在保證性能的同時,將模型上下文長度盡可能地拓展,達到千/萬 tokens 級別。
然而,現(xiàn)有的模型評測集長度多數(shù)比較短,僅在百/千 tokens 量級,并不能很好地評測模型的長文本理解能力,尤其是中文的長文本理解能力。
為了解決這一問題,GLM 技術(shù)團隊基于內(nèi)部長期的探索,開發(fā)了專門針對模型長文本理解能力的評測數(shù)據(jù)集 LongBench。
該數(shù)據(jù)集包含了?13 個英文任務(wù)、5個中文任務(wù)和?2 個代碼任務(wù)。多數(shù)任務(wù)的平均長度在5k-15k之間,共包含約4500條測試數(shù)據(jù)。
從主要任務(wù)分類上,LongBench包含單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等六大類任務(wù) 20?個不同子任務(wù)。
具體來說,LongBench?有以下特點:
雙語:LongBench 能夠針對中、英雙語的長文本進行更全面的評估。
多任務(wù):LongBench由六大類、二十個不同的任務(wù)組成,覆蓋了單文檔QA、多文檔QA、摘要、Few-shot學(xué)習(xí)、代碼補全和合成任務(wù)等關(guān)鍵的長文本應(yīng)用場景。
自動評測:我們深知模型評測過程中可能產(chǎn)生的高昂成本,尤其是長文本場景下(如人工標注成本或API調(diào)用成本)。因此,我們采用了一種全自動的評測方式,旨在以最低的成本,最有效地衡量和評估模型的長文本理解能力。
利用該評測數(shù)據(jù)集,我們分別對?GPT-3.5-Turbo-16k、Llama2-7B-chat-4k、LongChat-7B-16k、XGen-7B-8k、InternLM-7B-8k、ChatGLM2-6B、ChatGLM2-6B-32k*?等 7 個支持長文本的模型的性能。
其中,ChatGLM2-6B-32K?在 ChatGLM2-6B 的基礎(chǔ)上進一步強化了對于長文本的理解能力,能夠更好的處理最多32K長度的上下文。具體地,我們基于位置插值(Positional Interpolation)的方法對位置編碼進行了更新,并在對話階段使用 32K 的上下文長度訓(xùn)練。?
下載使用:?- Github:https://github.com/THUDM/ChatGLM2-6B
- HF:https://huggingface.co/THUDM/chatglm2-6b-32k
如下所示:


不同長度文本下的能力變化
為了更有針對性地分析模型在不同文本長度下的相對表現(xiàn),下圖展示了模型在不同文本長度區(qū)間上,所有任務(wù)上的平均相對分數(shù)。

我們希望,該數(shù)據(jù)集能夠幫助評估模型在長文本理解方面的表現(xiàn),促進模型的進一步發(fā)展和改進。
更多細節(jié),
- Github:
https://github.com/THUDM/LongBench
- HF:
https://huggingface.co/datasets/THUDM/LongBench