【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(40)——來,大模型,喝藥了
最近不知道為什么一個(gè)動(dòng)態(tài)莫名其妙地就被啊b推送出去了,到今天都還有一大推點(diǎn)贊的消息。雖然我最近也收獲了不少粉絲,感謝大家的關(guān)注。
真的好久沒更新了,最近被各種事折磨的欲仙欲死(我甚至都還沒放暑假,實(shí)驗(yàn)室就放半個(gè)月,這半個(gè)月我很可能還要肝論文),今天稍微抽出點(diǎn)時(shí)間講講一篇我比較感興趣的論文:

這個(gè)項(xiàng)目因?yàn)榛旧鲜俏覈?guó)來做的,所以也有一個(gè)中文項(xiàng)目名——給AI的100瓶毒藥

1.大模型的評(píng)估
其實(shí)最近搞得項(xiàng)目就是大模型評(píng)估相關(guān),包括寫了一篇我覺得很全面的小綜述,扔知乎了(動(dòng)態(tài)應(yīng)該還能找到)。但是那篇文章只是羅列一些知識(shí)點(diǎn),并沒有做總結(jié),這里稍微梳理一下。
總體上來說,大模型的評(píng)估方法是落后于大模型的發(fā)展的,目前最常用的仍然是BLEU、ROUGE等傳統(tǒng)方法,基本上是將模型生成的輸出和標(biāo)準(zhǔn)答案做比較,最簡(jiǎn)單的方法就是對(duì)比有哪些單詞是對(duì)上了的,當(dāng)然,復(fù)雜點(diǎn)的方法也沒有復(fù)雜很多。
這也就是為什么我們覺得市面上很多機(jī)器翻譯軟件實(shí)際上翻譯的不如ChatGPT,在語氣等方面甚至被ChatGPT完爆,但論文中數(shù)據(jù)往往很好的原因。
當(dāng)然,這很大程度上也是因?yàn)橹暗哪P托阅芴盍?,現(xiàn)在的模型性能強(qiáng)了一些,就可以讓他們直接做選擇題了。
當(dāng)然,選擇題其實(shí)也不是什么完全的對(duì)策,很多時(shí)候你能選擇出更好的答案,不代表你能生成出這個(gè)答案(例如分辨哪一個(gè)文章寫得好,很多人都能選對(duì),但自己寫不一定寫得出來)。而且能生成的東西領(lǐng)域可是海量的,最終最靠譜的仍然還是人工評(píng)估。但是人工評(píng)估又費(fèi)時(shí)費(fèi)力燒錢。
所以我們看到,目前大模型的評(píng)估基本是兩條路:
(1)堆量。既然開放域問答的領(lǐng)域很開放,那我就試圖全部填滿,什么領(lǐng)域都考慮進(jìn)去。所以就出現(xiàn)了C-EVAL這種包含小學(xué)、初高中、大學(xué)的超多科目的考試數(shù)據(jù)集、HELM這種領(lǐng)域無限細(xì)分的benchmark、SUPER-NATURALINSTRUCTIONS這樣包含1600+種instruction的堆量數(shù)據(jù)集
(2)冷門領(lǐng)域。堆量基本上是大公司才玩的起的,所以很多旁門左道的評(píng)估被提出來,醫(yī)療、芯片設(shè)計(jì)、金融等都還是常見現(xiàn)象,甚至有讓大模型作為教師培訓(xùn)者的情況(就是讓新手老師講課,大模型評(píng)估這堂課并給出反饋意見,然后研究者再對(duì)大模型給出的評(píng)估進(jìn)行評(píng)估,什么套娃)

2.毒性與安全
大模型的毒性是從模型性能其實(shí)還沒有那么強(qiáng)的時(shí)候就在關(guān)注的話題了,包括谷歌的LAMDA就是一直擔(dān)心安全問題(盡管LAMDA的論文中真的花了極大的篇幅來介紹他們是怎樣盡量減少)所以一直沒放出來的。
某種程度上來講,毒性并不是能完全解決的問題,根本原因在訓(xùn)練上?,F(xiàn)在的大模型訓(xùn)練都是從網(wǎng)上爬蟲獲取大量的文本來訓(xùn)練的,雖然也有很多過濾措施,但訓(xùn)練集中仍然包含著大量毒性內(nèi)容。最麻煩的是,有些偏見本身就是社會(huì)偏見,人類尚且不能克服,就不能指望一個(gè)清洗程序能搞定了。
當(dāng)然,這并不是說我們承認(rèn)“毒性無法完全抹除”就高枕無憂了,因?yàn)橹耙恍?duì)話系統(tǒng)已經(jīng)表明模型是有可能放大這種毒性的,也許就像一些人所說的,學(xué)習(xí)外語時(shí)最好學(xué)的反而是臟話吧。
更麻煩的問題在于,現(xiàn)在的模型是黑盒,就是說,我么完全不知道模型內(nèi)部是不是學(xué)習(xí)到了什么隱藏的很深的毒性。也許在實(shí)驗(yàn)中我們用了大量的測(cè)試覺得它沒問題,但是一旦給公眾使用就出現(xiàn)問題(一個(gè)男人走進(jìn)了酒吧.avi)
前不久不是有幾個(gè)機(jī)器人被問一些問題,工程師說AI的回答超乎想象。這很可能并不是演戲,畢竟現(xiàn)實(shí)中工程師確實(shí)不知道大模型在想什么,畢竟是黑盒模型,而不是人工一條條寫的規(guī)則。

3.對(duì)齊
為了減少毒性,不少研究者給出了各種各樣的方法,例如比較出名的就是ChatGPT的對(duì)齊方法——RLHF了。
RLHF的想法很簡(jiǎn)單,簡(jiǎn)單說就是用現(xiàn)在人們的價(jià)值觀去糾正過去的價(jià)值觀,用一批能夠一定程度上保證價(jià)值觀比較正常的人的價(jià)值觀去糾正訓(xùn)練語料中可成存在的各式各樣的價(jià)值觀。
當(dāng)然,RLHF還是不夠的,OpenAI之后的一個(gè)很重要的目標(biāo)是搞定“超級(jí)對(duì)齊”。
此外,馬斯克也成立了xAI,某種程度上也是為了解決這個(gè)問題,LeCun的世界模型的想法也有可能能解決這個(gè)問題(然而世界模型還在研究中)

4.阿里的做法——投毒
阿里的做法屬于更簡(jiǎn)單粗暴的類型,就是大量投毒。簡(jiǎn)單來說,在這篇論文中,阿里請(qǐng)了很多專家設(shè)計(jì)了大量對(duì)抗性樣本來測(cè)試模型的毒性,這有助于我們?nèi)ビ^察模型有哪些弱項(xiàng),然后就可以針對(duì)性的微調(diào)來減輕模型的毒性。
這種做法顯然是堆量的做法,雖然我個(gè)人覺得很難從根本上解決問題,但短期內(nèi)收益還是有的。
項(xiàng)目給出的幾個(gè)示例還是很有意思的,例如(就借一下新智元公眾號(hào)的圖片吧):

這就是較為符合現(xiàn)在價(jià)值觀的回答,對(duì)社恐來說比較友好(而不是上來就建議人應(yīng)該陽光點(diǎn)、出去走走)

5.總結(jié)
總的來說,解決大模型毒性,我們?nèi)匀挥泻荛L(zhǎng)很長(zhǎng)的路要走,這個(gè)問題隨著模型性能變強(qiáng)也會(huì)越來越棘手(特別是一定會(huì)有人借題發(fā)揮)。希望能夠早日找到一些比較靠譜的方法吧