國內(nèi)大模型評估偏心?大模型開始卷輸入窗口長度?AI雜談
近些天大語言模型炸裂的消息不少,昨天就直接寫了三篇專欄,今天不想寫復(fù)雜的了,就雜談。

1.國內(nèi)大模型評估偏心?
來源于今日動態(tài):
最近一個國內(nèi)模型大測評的事件引起了很多爭議,在榜單中,百度文心一言倒數(shù)第一,被ChatGLM-6B吊打(我個人用ChatGLM-6B做過不少實驗了,甚至數(shù)據(jù)出現(xiàn)中英文摻雜都是常有的事情) 看測評方法的話,其實是做選擇題。之前我也講過,現(xiàn)在很多評估的數(shù)據(jù)之所以好看,是因為都是以選擇題的形式讓模型回答,甚至直接根據(jù)選項計算輸出概率的,這些“技巧”甚至都不寫在論文里。 不過做選擇題實際上是BERT的遺留問題,因為選擇題適合考察BERT-like模型的理解能力等。 其實根源在于目前仍然沒有一套好的方法來評估不同的大模型的綜合性能,每個模型因為數(shù)據(jù)集、架構(gòu)、RLHF的標注等多種因素的差別,有各自擅長的領(lǐng)域,甚至輸出風格、UI設(shè)計等都會導致不同的人對不同的模型性能有自己的判斷標準,例如我就認為星火比文心厲害一些

2.大模型卷輸入窗口?
被稱為ChatGPT最強競品的Claude迎來了全新的升級,輸入窗口擴大到100K,比GPT-4的32K要大
輸入窗口大的好處是一次可以輸入更多的東西了,但這并不好做。
之前符堯大佬在萬字拆解中認為GPT-3.5有很大可能是重新訓練了一些模型,甚至可能有比GPT-3的1750億更大的模型,一個理由是GPT-3.5的一些模型輸入更長。而不修改模型架構(gòu)而增大輸入窗口數(shù)在當時看起來似乎也并不現(xiàn)實。
然后最近一篇論文就出來搞事情了:

沒錯,直接在不改變模型架構(gòu)的基礎(chǔ)上卷到了1M的輸入窗口,據(jù)說現(xiàn)在還有卷到2M甚至更高的。這種方法的思路也很簡單:

就是把整個文本分成很多小段,然后前面加個記憶模塊用以對前面的輸入做“總結(jié)”。
但這種方法對性能影響比較大,Claude等模型擴大了輸入窗口是這種方式嗎?還是其他方式?目前還不清楚(在我們不清楚的時候別人已經(jīng)在卷了)