【AI雜談】怎么刷榜最快呢?在測試集上訓練吧?。甓茸罴驯LM論文)
之前在動態(tài)提了一下,我個人決定將以下論文列入年度最佳LLM相關(guān)論文:

于是這里來簡單雜談一下這篇論文。
其實這一篇論文基本是貼臉嘲諷了,主要嘲諷對象是phi-1.5,畢竟本文的模型名字是“phi-CTNL”也就是phi-虛構(gòu)啦。
那就來介紹下phi:

早些時候,微軟發(fā)布了如上的論文,這就是phi-1,這篇論文是說,如果我們有教科書級別的數(shù)據(jù)的話就能讓小模型獲得很好的能力。這篇文章問題倒不大,畢竟相關(guān)研究也是很多了。
之后,微軟的后續(xù)研究出爐了,也就是phi-1.5:

phi-1.5基本上是延續(xù)了phi的研究,只不過研究領(lǐng)域有所不同(代碼任務(wù)到自然語言推理任務(wù))。然而,這篇論文被爆出沒做好數(shù)據(jù)泄露的處理,也就是說,人們懷疑在phi-1.5的訓練集中存在一些數(shù)據(jù)集的測試集的內(nèi)容。表現(xiàn)有很多,經(jīng)典的就是數(shù)學題換一個數(shù)字phi-1.5就做不對了。
當然,我們不能說phi-1.5就是有意這樣做的,很可能是因為自己沒做數(shù)據(jù)檢查而已。
當然,情況不只是這一個模型有的,實際上,不少刷榜的模型或多或少都面臨著數(shù)據(jù)泄露、用測試集來訓練的情況,基本上也算是業(yè)界的公開的秘密了。
即使是剛?cè)腴T機器學習的朋友也應(yīng)該清楚,我們一般都是在訓練集上訓練模型,然后驗證集是自己測自己的模型性能的,而測試集模擬的是真實的、沒見過的數(shù)據(jù),拿測試集做訓練可是大忌。(不然你學了1+1=2,我再問你1+1等于幾,有什么意義呢)
但是我們看到,大模型時代似乎不是這樣的,因為大模型需要大量的數(shù)據(jù)訓練,但是不需要數(shù)據(jù)標注,所以基本都是互聯(lián)網(wǎng)大量爬取數(shù)據(jù),難免就有測試集,甚至整個數(shù)據(jù)集被爬下來拿去訓練了,并且因為訓練數(shù)據(jù)量過于龐大,幾乎很難一個個排查,所以基本上也就這樣了。所以現(xiàn)在很多大模型的測試數(shù)據(jù)都是想盡辦法找出現(xiàn)在大模型訓練集中概率更小的數(shù)據(jù),例如什么小地方的考試試題、最近的wiki內(nèi)容等。
所以還是提醒大家,不要只盯著榜單分數(shù)看,里面水分還是很大的。