【AI雜談】RLHF是虛假的對(duì)齊?我們?cè)撊绾螌?duì)齊呢?
雖然這兩天最火的消息就是OpenAI創(chuàng)始人奧特曼的事情了,在說要把奧特曼踢出OpenAI的24小時(shí)內(nèi),又有消息說董事會(huì)可能取消之前的決定。
這個(gè)事我懶得談,還是搞點(diǎn)技術(shù)的,說說最近和大模型對(duì)齊有關(guān)的研究。就小寫一下,比較忙。
RLHF是ChatGPT成功的關(guān)鍵方法,也是大模型相關(guān)研究的焦點(diǎn),RLHF的作用很多,除了能提升模型作為chatbot的能力,最重要的就是讓模型的價(jià)值觀與人類的價(jià)值觀進(jìn)行對(duì)齊,讓模型不至于說出一些敏感內(nèi)容。
除了對(duì)于RLHF方法本身效率的批評(píng)意見以外,最多的就是懷疑現(xiàn)有的對(duì)齊技術(shù)真的能夠做到對(duì)齊嗎?我們是否是陷入“假對(duì)齊”陷阱中,甚至有人開始搞陰謀論,說現(xiàn)在的大模型知道自己在被人類測(cè)試,所以會(huì)故意說一些“安全”的內(nèi)容來(lái)“應(yīng)付”人類。
拋開陰謀論不談,還是有人對(duì)現(xiàn)有對(duì)齊的有效性進(jìn)行研究的。
OK,現(xiàn)在我們就單純把大模型看做是一個(gè)路邊的人類,你給人類兩份問卷,一份全是選擇題,另一份全是簡(jiǎn)答題,你會(huì)更喜歡做哪一份?
對(duì)于大模型來(lái)說,是沒有所謂的“惰性”的,但即使人類沒有惰性,應(yīng)該也會(huì)更傾向于做選擇題。畢竟簡(jiǎn)答題你是需要思考這個(gè)題目想讓我們回答什么,然后組織答案的,要是題目都看不太懂就不要提寫出答案了。但選擇題嘛,即使你對(duì)這個(gè)問題不是很熟,也能嘗試用排除法做嘛,再不濟(jì)隨機(jī)選擇,也比什么都寫不出來(lái)或者亂寫一通好吧。
雖然“對(duì)于大模型來(lái)說,做選擇題比開放式回答更簡(jiǎn)單”其實(shí)也是一種偏見,畢竟GPT本身就是更專注于“生成”而不是“理解”的(理解那是BERT那樣雙向模型的關(guān)注點(diǎn)),但很多時(shí)候,這個(gè)結(jié)論還是適用的。但是有作者研究發(fā)現(xiàn),在對(duì)齊領(lǐng)域并不總是這樣,甚至同樣一個(gè)問題,提供選項(xiàng)反而會(huì)使得性能大降。
于是作者猜測(cè),是因?yàn)橛行┠P推鋵?shí)只是在對(duì)齊過程中照著葫蘆畫瓢,知道怎么輸出是安全的,但是不知道為什么這么說是安全的,也就是不知道安全的“標(biāo)準(zhǔn)”。
無(wú)獨(dú)有偶,現(xiàn)在也有很多研究表明只需要少量樣本,就可以把ChatGPT從一個(gè)紳士微調(diào)成一個(gè)惡魔,甚至現(xiàn)在有研究說只需要340個(gè)樣本就可以做到。
現(xiàn)在也有一些方法嘗試用一些“邪道”的方法(其實(shí)是元學(xué)習(xí)的巧妙應(yīng)用啦,但確實(shí)很難想到這個(gè)思路的)讓模型更難被“帶壞”,但像ChatGPT這樣的模型不太可能這樣做。
總的來(lái)說,現(xiàn)在人們對(duì)于大模型安全方面的顧慮確實(shí)不是沒有原因的,畢竟我們對(duì)于大模型安全方面的研究還是有限的,RLHF以及其他一些替代方法說白了還都是需要用數(shù)據(jù)堆出來(lái)的,但是這些數(shù)據(jù)相較于預(yù)訓(xùn)練模型中有問題的數(shù)據(jù)還是太少了。
每次寫AI的一個(gè)小主題,都感覺任重道遠(yuǎn)啊