手機(jī)站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學(xué)習(xí) » 【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（35）——ChatGPT：“獅子生活在水里”

【花師小哲】當(dāng)代煉金術(shù)（神經(jīng)網(wǎng)絡(luò)）前沿（35）——ChatGPT：“獅子生活在水里”

2023-05-17 15:08 作者:花師小哲-中二 0人讀過 | 我要投稿

其實日常來說，我讀的比較多的一類論文是以ChatGPT為代表的大模型的能力評估論文，主要是這類論文不需要多少腦子，熟悉了套路后半小時甚至都能啃一篇，在課題組要求一周至少10篇論文的情況下很容易充幾個數(shù)。

畢竟這類論文基本上是選擇一個主題，然后要么人工要么搞點自動化方法（大模型的輸出實際上很多時候不標(biāo)準(zhǔn)，所以如何正確提取答案也是一大問題），就沒了，所以沒什么好講的。

不過今天這篇論文有點意思：

1.評估是做選擇題？

這個點我好像還沒在專欄中特別提過，雖然動態(tài)說了幾遍了。

因為大模型的輸出不一定是按照我們想要的格式的，所以如何自動化地評估大模型的輸出是否是“正確的”是一個很難的問題。

例如對于情感分類，傳統(tǒng)模型的輸出要么是“正面情感”，要么是“負(fù)面情感”，我們甚至可以控制模型只生成0或1，而ChatGPT給你來一句“小明很高興”，自動化評估就很麻煩。

一個偷懶的方法就是讓模型做選擇題：

這種方法其實是BERT時代（或者簡單理解成前ChatGPT時代）遺留的方法，因為BERT是判別模型（相應(yīng)地ChatGPT是生成模型），所以選擇題就適合BERT。

比較可氣的是很多論文都不明確寫出來“我們用了選擇題”，導(dǎo)致我們課題組也是翻代碼才發(fā)現(xiàn)大家好像心照不宣地都在用選擇題做模型評估。（當(dāng)時我知道后的反應(yīng)是“好氣哦”，畢竟自己在答案提取上也是研究了一小段時間，結(jié)果告訴我只要做選擇題）

2.常識

回歸正題。本篇討論的其實是負(fù)常識，在了解負(fù)常識之前我們先談?wù)?strong>常識。

雖然在很多漫畫作品中經(jīng)常出現(xiàn)一些沒有常識的角色，包括我自己也是個沒什么生活常識的人，但我們也都或多或少的有些常識，不然怎么活下來的。

但常識對于機(jī)器來說就不是什么好處理的東西了，因為很多常識我們都意識不太到，例如我們生活中是不會經(jīng)常去想“我們呼吸的是空氣”這樣的常識，也很少會將這些知識寫到知識庫中，所以對于很多傳統(tǒng)的問答系統(tǒng)來說，常識知識反而是重災(zāi)區(qū)。

一個非常經(jīng)典的例子是，對于一個傳統(tǒng)的問答系統(tǒng)，你問它“美國的總統(tǒng)是誰？”，它會回答“拜登”；但如果你問“美國有總統(tǒng)嗎？”，它可能就會給出“沒有”。因為對于一些傳統(tǒng)問答系統(tǒng)來說，這兩個問題之間是沒有內(nèi)在聯(lián)系的，它也不會從“美國總統(tǒng)是拜登”推導(dǎo)出“美國有總統(tǒng)”的（羅素直呼內(nèi)行）?；蛘哒f，“美國有總統(tǒng)”這個常識知識甚至都需要我們再額外添加。

但是ChatGPT某種程度上突破了這個限制，關(guān)鍵就是預(yù)訓(xùn)練，也就是把人類的大量語料過了一遍，相應(yīng)地也就內(nèi)化了很多常識知識，所以在很多評估中，ChatGPT的常識能力已經(jīng)很不錯了。