散文網(wǎng) » 科技 »學(xué)習(xí) » 【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？

2023-11-19 18:21 作者:花師小哲-中二 0人讀過 | 我要投稿

雖然這兩天最火的消息就是OpenAI創(chuàng)始人奧特曼的事情了，在說要把奧特曼踢出OpenAI的24小時(shí)內(nèi)，又有消息說董事會(huì)可能取消之前的決定。

這個(gè)事我懶得談，還是搞點(diǎn)技術(shù)的，說說最近和大模型對(duì)齊有關(guān)的研究。就小寫一下，比較忙。

RLHF是ChatGPT成功的關(guān)鍵方法，也是大模型相關(guān)研究的焦點(diǎn)，RLHF的作用很多，除了能提升模型作為chatbot的能力，最重要的就是讓模型的價(jià)值觀與人類的價(jià)值觀進(jìn)行對(duì)齊，讓模型不至于說出一些敏感內(nèi)容。

除了對(duì)于RLHF方法本身效率的批評(píng)意見以外，最多的就是懷疑現(xiàn)有的對(duì)齊技術(shù)真的能夠做到對(duì)齊嗎？我們是否是陷入“假對(duì)齊”陷阱中，甚至有人開始搞陰謀論，說現(xiàn)在的大模型知道自己在被人類測(cè)試，所以會(huì)故意說一些“安全”的內(nèi)容來(lái)“應(yīng)付”人類。

拋開陰謀論不談，還是有人對(duì)現(xiàn)有對(duì)齊的有效性進(jìn)行研究的。

OK，現(xiàn)在我們就單純把大模型看做是一個(gè)路邊的人類，你給人類兩份問卷，一份全是選擇題，另一份全是簡(jiǎn)答題，你會(huì)更喜歡做哪一份？

對(duì)于大模型來(lái)說，是沒有所謂的“惰性”的，但即使人類沒有惰性，應(yīng)該也會(huì)更傾向于做選擇題。畢竟簡(jiǎn)答題你是需要思考這個(gè)題目想讓我們回答什么，然后組織答案的，要是題目都看不太懂就不要提寫出答案了。但選擇題嘛，即使你對(duì)這個(gè)問題不是很熟，也能嘗試用排除法做嘛，再不濟(jì)隨機(jī)選擇，也比什么都寫不出來(lái)或者亂寫一通好吧。

雖然“對(duì)于大模型來(lái)說，做選擇題比開放式回答更簡(jiǎn)單”其實(shí)也是一種偏見，畢竟GPT本身就是更專注于“生成”而不是“理解”的（理解那是BERT那樣雙向模型的關(guān)注點(diǎn)），但很多時(shí)候，這個(gè)結(jié)論還是適用的。但是有作者研究發(fā)現(xiàn)，在對(duì)齊領(lǐng)域并不總是這樣，甚至同樣一個(gè)問題，提供選項(xiàng)反而會(huì)使得性能大降。

于是作者猜測(cè)，是因?yàn)橛行┠Ｐ推鋵?shí)只是在對(duì)齊過程中照著葫蘆畫瓢，知道怎么輸出是安全的，但是不知道為什么這么說是安全的，也就是不知道安全的“標(biāo)準(zhǔn)”。

無(wú)獨(dú)有偶，現(xiàn)在也有很多研究表明只需要少量樣本，就可以把ChatGPT從一個(gè)紳士微調(diào)成一個(gè)惡魔，甚至現(xiàn)在有研究說只需要340個(gè)樣本就可以做到。

現(xiàn)在也有一些方法嘗試用一些“邪道”的方法（其實(shí)是元學(xué)習(xí)的巧妙應(yīng)用啦，但確實(shí)很難想到這個(gè)思路的）讓模型更難被“帶壞”，但像ChatGPT這樣的模型不太可能這樣做。

總的來(lái)說，現(xiàn)在人們對(duì)于大模型安全方面的顧慮確實(shí)不是沒有原因的，畢竟我們對(duì)于大模型安全方面的研究還是有限的，RLHF以及其他一些替代方法說白了還都是需要用數(shù)據(jù)堆出來(lái)的，但是這些數(shù)據(jù)相較于預(yù)訓(xùn)練模型中有問題的數(shù)據(jù)還是太少了。

每次寫AI的一個(gè)小主題，都感覺任重道遠(yuǎn)啊

標(biāo)簽：

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？

本文作者的其他文章

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？

【AI雜談】RLHF是虛假的對(duì)齊？我們?cè)撊绾螌?duì)齊呢？的評(píng)論 (共條)