最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧?。甓茸罴驯LM論文)

2023-11-09 19:06 作者:花師小哲-中二  | 我要投稿

之前在動態(tài)提了一下,我個人決定將以下論文列入年度最佳LLM相關(guān)論文:

于是這里來簡單雜談一下這篇論文。

其實這一篇論文基本是貼臉嘲諷了,主要嘲諷對象是phi-1.5,畢竟本文的模型名字是“phi-CTNL”也就是phi-虛構(gòu)啦。

那就來介紹下phi:

早些時候,微軟發(fā)布了如上的論文,這就是phi-1,這篇論文是說,如果我們有教科書級別的數(shù)據(jù)的話就能讓小模型獲得很好的能力。這篇文章問題倒不大,畢竟相關(guān)研究也是很多了。

之后,微軟的后續(xù)研究出爐了,也就是phi-1.5:

phi-1.5基本上是延續(xù)了phi的研究,只不過研究領(lǐng)域有所不同(代碼任務(wù)到自然語言推理任務(wù))。然而,這篇論文被爆出沒做好數(shù)據(jù)泄露的處理,也就是說,人們懷疑在phi-1.5的訓練集中存在一些數(shù)據(jù)集的測試集的內(nèi)容。表現(xiàn)有很多,經(jīng)典的就是數(shù)學題換一個數(shù)字phi-1.5就做不對了。


當然,我們不能說phi-1.5就是有意這樣做的,很可能是因為自己沒做數(shù)據(jù)檢查而已。


當然,情況不只是這一個模型有的,實際上,不少刷榜的模型或多或少都面臨著數(shù)據(jù)泄露、用測試集來訓練的情況,基本上也算是業(yè)界的公開的秘密了。

即使是剛?cè)腴T機器學習的朋友也應(yīng)該清楚,我們一般都是在訓練集上訓練模型,然后驗證集是自己測自己的模型性能的,而測試集模擬的是真實的、沒見過的數(shù)據(jù),拿測試集做訓練可是大忌。(不然你學了1+1=2,我再問你1+1等于幾,有什么意義呢)

但是我們看到,大模型時代似乎不是這樣的,因為大模型需要大量的數(shù)據(jù)訓練,但是不需要數(shù)據(jù)標注,所以基本都是互聯(lián)網(wǎng)大量爬取數(shù)據(jù),難免就有測試集,甚至整個數(shù)據(jù)集被爬下來拿去訓練了,并且因為訓練數(shù)據(jù)量過于龐大,幾乎很難一個個排查,所以基本上也就這樣了。所以現(xiàn)在很多大模型的測試數(shù)據(jù)都是想盡辦法找出現(xiàn)在大模型訓練集中概率更小的數(shù)據(jù),例如什么小地方的考試試題、最近的wiki內(nèi)容等。

所以還是提醒大家,不要只盯著榜單分數(shù)看,里面水分還是很大的。

【AI雜談】怎么刷榜最快呢?在測試集上訓練吧!(年度最佳爆笑LLM論文)的評論 (共 條)

分享到微博請遵守國家法律
湟源县| 新泰市| 吉林市| 泸州市| 温宿县| 宜宾县| 正阳县| 通城县| 通化县| 鄂伦春自治旗| 祁门县| 乌拉特前旗| 龙陵县| 新化县| 仪征市| 西平县| 潼南县| 西盟| 棋牌| 兰考县| 静宁县| 乌兰浩特市| 天峻县| 铜山县| 儋州市| 同德县| 三明市| 济南市| 武宁县| 鄂尔多斯市| 仁怀市| 本溪| 丰台区| 于田县| 邻水| 泰州市| 丹江口市| 马龙县| 沙雅县| 湟源县| 佛教|