【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價

2023-05-18 10:30 作者:花師小哲-中二 0人讀過 | 我要投稿

寫ChatGPT萬字拆解的符堯大佬近期發(fā)表了一篇新的論文：

這篇論文的想法真的巧妙，簡單來說，論文讓兩個大模型進行討價還價的對抗。

1.描述

如圖：

思想很簡單，就是讓兩個語言模型分別充當買家和賣家。賣家的目的是提高價格，買家的目的是降低價格，就是我們熟悉的討價還價。

除此之外，還有個第三者，你可以認為是兩者的智囊團。因為現(xiàn)在的大模型還不夠智能，引入智囊團可以幫助買賣雙方更好的更新自己的策略。例如一組對話可能是這樣的：

（有一個人前來買氣球）

買家：我想買一個氣球

賣家：好啊，16塊錢一個

買家：好呀好呀

第三者：賣家你不能這樣就直接賣了，你要說的這個氣球好像很金貴一樣，盡量賣的更高價一些（這就是根據之前的對話給策略了，不一定只給賣家建議的）

賣家：160塊一個，不能便宜了。你看現(xiàn)在哪有氣球啊，這都是大鵬的氣球，你嫌貴我還嫌貴呢

買家：What's up。你這氣球繩子是金子做的還是氣球皮子是金子做的（

......

2.能考察什么

雖然看起來這個任務很簡單，但是真的是很巧妙的一個設計

首先，在角色扮演，或者說理解我們想讓模型做什么這一點上大部分模型都過不去，更不要提后續(xù)的多輪對話了。

要很好的完成這個任務，模型要理解問題、根據對方的話進行反饋、根據第三者的建議調整自己的策略、保持自己的辯論思路不滑坡等。第三者還需要根據多輪對話中給出不同的建議?？梢哉f是能考察的很全面的一個任務。

在測試的所有模型中，只有GPT族的一些模型和Claude能夠具備所有的能力（所以Claude是ChatGPT第一競品真的不是說著玩的?。?/p>

3.討價還價這個任務其實很難找

論文中也提到，他們也嘗試了很多其他任務，例如RPG，但是對于現(xiàn)在的大模型來說還是太復雜了。

其實我個人也是做過相關研究的（還好方案做著做著就被否掉了，我這種沒有生活經驗的人真的想不出這個任務），例如“甜豆腐腦vs咸豆腐腦”：

我們知道，為了不生成毒性內容、盡量不引起對立等，ChatGPT的生成是受限的，圖中其實完全沒有吵起來，到最后都是和和氣氣的。（這張圖還是專門選過的，很多時候甚至都不會有任何吵起來的跡象，就是說“我喜歡甜豆腐腦但是尊重喜歡咸豆腐腦的人”，然后就沒有下文了）

但是討價還價卻能繞過這個機制。

所以討價還價可以說是剛剛好的一個任務，不會太復雜，也不會觸及到ChatGPT的“逆鱗”。而且真的接地氣好吧。。。

4.小展開

那么，為什么討價還價這個任務能繞過ChatGPT的“逆鱗”呢？這其實是一個很值得深挖的一個點，可能會挖到預訓練預料中的bias、RLHF中存在的一些問題等方向。我覺得有興趣的朋友可以展開分析一下。我還是在忙著干活的過程中突然被導師扔來了這個論文，看還沒有別人發(fā)且真的有意思，就先寫一下，回去干活了

標簽：

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價

本文作者的其他文章

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【花師小哲】當代煉金術（神經網絡）前沿（36）——ChatGPT比我會砍價的評論 (共條)