最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

【AI雜談】RLHF是虛假的對(duì)齊?我們?cè)撊绾螌?duì)齊呢?

2023-11-19 18:21 作者:花師小哲-中二  | 我要投稿

雖然這兩天最火的消息就是OpenAI創(chuàng)始人奧特曼的事情了,在說要把奧特曼踢出OpenAI的24小時(shí)內(nèi),又有消息說董事會(huì)可能取消之前的決定。

這個(gè)事我懶得談,還是搞點(diǎn)技術(shù)的,說說最近和大模型對(duì)齊有關(guān)的研究。就小寫一下,比較忙。


RLHF是ChatGPT成功的關(guān)鍵方法,也是大模型相關(guān)研究的焦點(diǎn),RLHF的作用很多,除了能提升模型作為chatbot的能力,最重要的就是讓模型的價(jià)值觀與人類的價(jià)值觀進(jìn)行對(duì)齊,讓模型不至于說出一些敏感內(nèi)容。

除了對(duì)于RLHF方法本身效率的批評(píng)意見以外,最多的就是懷疑現(xiàn)有的對(duì)齊技術(shù)真的能夠做到對(duì)齊嗎?我們是否是陷入“假對(duì)齊”陷阱中,甚至有人開始搞陰謀論,說現(xiàn)在的大模型知道自己在被人類測(cè)試,所以會(huì)故意說一些“安全”的內(nèi)容來(lái)“應(yīng)付”人類。

拋開陰謀論不談,還是有人對(duì)現(xiàn)有對(duì)齊的有效性進(jìn)行研究的。

OK,現(xiàn)在我們就單純把大模型看做是一個(gè)路邊的人類,你給人類兩份問卷,一份全是選擇題,另一份全是簡(jiǎn)答題,你會(huì)更喜歡做哪一份?

對(duì)于大模型來(lái)說,是沒有所謂的“惰性”的,但即使人類沒有惰性,應(yīng)該也會(huì)更傾向于做選擇題。畢竟簡(jiǎn)答題你是需要思考這個(gè)題目想讓我們回答什么,然后組織答案的,要是題目都看不太懂就不要提寫出答案了。但選擇題嘛,即使你對(duì)這個(gè)問題不是很熟,也能嘗試用排除法做嘛,再不濟(jì)隨機(jī)選擇,也比什么都寫不出來(lái)或者亂寫一通好吧。

雖然“對(duì)于大模型來(lái)說,做選擇題比開放式回答更簡(jiǎn)單”其實(shí)也是一種偏見,畢竟GPT本身就是更專注于“生成”而不是“理解”的(理解那是BERT那樣雙向模型的關(guān)注點(diǎn)),但很多時(shí)候,這個(gè)結(jié)論還是適用的。但是有作者研究發(fā)現(xiàn),在對(duì)齊領(lǐng)域并不總是這樣,甚至同樣一個(gè)問題,提供選項(xiàng)反而會(huì)使得性能大降。

于是作者猜測(cè),是因?yàn)橛行┠P推鋵?shí)只是在對(duì)齊過程中照著葫蘆畫瓢,知道怎么輸出是安全的,但是不知道為什么這么說是安全的,也就是不知道安全的“標(biāo)準(zhǔn)”。

無(wú)獨(dú)有偶,現(xiàn)在也有很多研究表明只需要少量樣本,就可以把ChatGPT從一個(gè)紳士微調(diào)成一個(gè)惡魔,甚至現(xiàn)在有研究說只需要340個(gè)樣本就可以做到。


現(xiàn)在也有一些方法嘗試用一些“邪道”的方法(其實(shí)是元學(xué)習(xí)的巧妙應(yīng)用啦,但確實(shí)很難想到這個(gè)思路的)讓模型更難被“帶壞”,但像ChatGPT這樣的模型不太可能這樣做。


總的來(lái)說,現(xiàn)在人們對(duì)于大模型安全方面的顧慮確實(shí)不是沒有原因的,畢竟我們對(duì)于大模型安全方面的研究還是有限的,RLHF以及其他一些替代方法說白了還都是需要用數(shù)據(jù)堆出來(lái)的,但是這些數(shù)據(jù)相較于預(yù)訓(xùn)練模型中有問題的數(shù)據(jù)還是太少了。


每次寫AI的一個(gè)小主題,都感覺任重道遠(yuǎn)啊

【AI雜談】RLHF是虛假的對(duì)齊?我們?cè)撊绾螌?duì)齊呢?的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
平陆县| 滁州市| 城固县| 吉木萨尔县| 西林县| 峨眉山市| 青阳县| 陆丰市| 页游| 黑河市| 乐亭县| 寻甸| 西乌珠穆沁旗| 平乐县| 垦利县| 古浪县| 应城市| 南靖县| 右玉县| 镇平县| 肇州县| 陵川县| 穆棱市| 苍溪县| 辛集市| 晴隆县| 高台县| 通化市| 贺兰县| 抚松县| 高唐县| 兴国县| 霍城县| 新源县| 丰镇市| 阿拉善左旗| 行唐县| 额敏县| 林甸县| 洞口县| 中江县|