散文網(wǎng) » 科技 »學習 » 國內(nèi)大模型評估偏心？大模型開始卷輸入窗口長度？AI雜談

國內(nèi)大模型評估偏心？大模型開始卷輸入窗口長度？AI雜談

2023-05-12 15:44 作者:花師小哲-中二 0人讀過 | 我要投稿

近些天大語言模型炸裂的消息不少，昨天就直接寫了三篇專欄，今天不想寫復(fù)雜的了，就雜談。

1.國內(nèi)大模型評估偏心？

來源于今日動態(tài)：

最近一個國內(nèi)模型大測評的事件引起了很多爭議，在榜單中，百度文心一言倒數(shù)第一，被ChatGLM-6B吊打（我個人用ChatGLM-6B做過不少實驗了，甚至數(shù)據(jù)出現(xiàn)中英文摻雜都是常有的事情）看測評方法的話，其實是做選擇題。之前我也講過，現(xiàn)在很多評估的數(shù)據(jù)之所以好看，是因為都是以選擇題的形式讓模型回答，甚至直接根據(jù)選項計算輸出概率的，這些“技巧”甚至都不寫在論文里。不過做選擇題實際上是BERT的遺留問題，因為選擇題適合考察BERT-like模型的理解能力等。其實根源在于目前仍然沒有一套好的方法來評估不同的大模型的綜合性能，每個模型因為數(shù)據(jù)集、架構(gòu)、RLHF的標注等多種因素的差別，有各自擅長的領(lǐng)域，甚至輸出風格、UI設(shè)計等都會導致不同的人對不同的模型性能有自己的判斷標準，例如我就認為星火比文心厲害一些