最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網 會員登陸 & 注冊

【花師小哲】當代煉金術(神經網絡)前沿(36)——ChatGPT比我會砍價

2023-05-18 10:30 作者:花師小哲-中二  | 我要投稿

寫ChatGPT萬字拆解的符堯大佬近期發(fā)表了一篇新的論文:

這篇論文的想法真的巧妙,簡單來說,論文讓兩個大模型進行討價還價的對抗。

1.描述

如圖:

思想很簡單,就是讓兩個語言模型分別充當買家賣家。賣家的目的是提高價格,買家的目的是降低價格,就是我們熟悉的討價還價。

除此之外,還有個第三者,你可以認為是兩者的智囊團。因為現(xiàn)在的大模型還不夠智能,引入智囊團可以幫助買賣雙方更好的更新自己的策略。例如一組對話可能是這樣的:

(有一個人前來買氣球)

買家:我想買一個氣球

賣家:好啊,16塊錢一個

買家:好呀好呀

第三者:賣家你不能這樣就直接賣了,你要說的這個氣球好像很金貴一樣,盡量賣的更高價一些(這就是根據之前的對話給策略了,不一定只給賣家建議的)

賣家:160塊一個,不能便宜了。你看現(xiàn)在哪有氣球啊,這都是大鵬的氣球,你嫌貴我還嫌貴呢

買家:What's up。你這氣球繩子是金子做的還是氣球皮子是金子做的(

......

2.能考察什么

雖然看起來這個任務很簡單,但是真的是很巧妙的一個設計

首先,在角色扮演,或者說理解我們想讓模型做什么這一點上大部分模型都過不去,更不要提后續(xù)的多輪對話了。

要很好的完成這個任務,模型要理解問題、根據對方的話進行反饋、根據第三者的建議調整自己的策略、保持自己的辯論思路不滑坡等。第三者還需要根據多輪對話中給出不同的建議??梢哉f是能考察的很全面的一個任務。

在測試的所有模型中,只有GPT族的一些模型和Claude能夠具備所有的能力(所以Claude是ChatGPT第一競品真的不是說著玩的?。?/p>

3.討價還價這個任務其實很難找

論文中也提到,他們也嘗試了很多其他任務,例如RPG,但是對于現(xiàn)在的大模型來說還是太復雜了。

其實我個人也是做過相關研究的(還好方案做著做著就被否掉了,我這種沒有生活經驗的人真的想不出這個任務),例如“甜豆腐腦vs咸豆腐腦”:

這個網站接了ChatGPT的API,但有一定保密性

我們知道,為了不生成毒性內容、盡量不引起對立等,ChatGPT的生成是受限的,圖中其實完全沒有吵起來,到最后都是和和氣氣的。(這張圖還是專門選過的,很多時候甚至都不會有任何吵起來的跡象,就是說“我喜歡甜豆腐腦但是尊重喜歡咸豆腐腦的人”,然后就沒有下文了)

但是討價還價卻能繞過這個機制。

所以討價還價可以說是剛剛好的一個任務,不會太復雜,也不會觸及到ChatGPT的“逆鱗”。而且真的接地氣好吧。。。

4.小展開

那么,為什么討價還價這個任務能繞過ChatGPT的“逆鱗”呢?這其實是一個很值得深挖的一個點,可能會挖到預訓練預料中的bias、RLHF中存在的一些問題等方向。我覺得有興趣的朋友可以展開分析一下。我還是在忙著干活的過程中突然被導師扔來了這個論文,看還沒有別人發(fā)且真的有意思,就先寫一下,回去干活了


【花師小哲】當代煉金術(神經網絡)前沿(36)——ChatGPT比我會砍價的評論 (共 條)

分享到微博請遵守國家法律
潮州市| 和顺县| 历史| 安岳县| 霍林郭勒市| 永顺县| 获嘉县| 梅河口市| 安仁县| 旅游| 综艺| 铜川市| 闽侯县| 阿巴嘎旗| 清原| 哈巴河县| 印江| 新昌县| 罗田县| 榆社县| 扎鲁特旗| 措勤县| 嵊泗县| 西城区| 广平县| 迭部县| 沭阳县| 依兰县| 自贡市| 温州市| 丰县| 外汇| 崇义县| 泰顺县| 乌兰县| 华容县| 美姑县| 嵩明县| 江永县| 宽城| 保德县|