最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

直播回顧 | 基于人類反饋的強化學習

2023-07-31 10:15 作者:小牛翻譯NiuTrans  | 我要投稿


2023年7月27日18:30,由東北大學自然語言處理實驗室主辦,小牛翻譯協(xié)辦的生成式大語言模型技術分享系列直播第七期順利舉行。本次報告由來自東北大學自然語言處理實驗室的王成龍博士,為大家?guī)砹恕痘谌祟惙答伒膹娀瘜W習》分享。

本次報告繼續(xù)為大家?guī)砩墒酱笳Z言模型關鍵技術細節(jié)的相關分享,由王成龍博士介紹“基于人類反饋的強化學習生成模型”,強化學習人類反饋(Reinforcement Learning Human Feedback, RLHF)技術被譽為大語言模型背后的“功臣”,成為了目前生成模型的新興訓練范式。王成龍博士首先介紹了RLHF技術的提出背景,包括生成式模型訓練的不足、強化學習的基礎框架等等,然后講述了RLHF的發(fā)展歷程,包括相關方法的摸索嘗試和主流方法的技術細節(jié),最后總結了RLHF是如何、為何為大模型帶來顯著的性能提升,并闡明了該技術目前存在的問題及挑戰(zhàn)。

在報告分享后的Q&A環(huán)節(jié),王成龍博士與各平臺的網(wǎng)友就大語言模型相關技術問題進行了廣泛討論,以下是本環(huán)節(jié)的問題和解答:

Q1:如何評價RLHF在大語言模型上的訓練效果?

A1:一般訓練效果的評價,可以人工評價的角度上來去看,比如在訓練后是否能避免之前模型產生的一些錯誤;不過如果從RLHF應用的意義上來講的話,其實RLHF在大語言模型的一個訓練效果的話,如果單單從學習人類偏好的一個角度上來說的話,其實如果我們把reward來去定義成我們想要優(yōu)化的一種目標。這種目標如果在有監(jiān)督學習的情況下,它是無法刻畫的。我感覺RLHF應用,以及它的一個意義還是非常大,因為它能夠實現(xiàn)我們有監(jiān)督實現(xiàn)不了的。如果不從這個角度來說的話,它的一個實驗效果可能和有監(jiān)督的一個情況下也是類似的。就是不斷地去加深這個模型對這個數(shù)據(jù)的一個理解或者是擬合。當然網(wǎng)上也有很多人去討論RLHF這個技術或者是這個流程在大語言模型上這個應用的一個必要性,是有沒有必要?有些人從一個數(shù)據(jù)增強類的角度上來講,比如我們在InstructGPT第一步的時候,我們標注很多有監(jiān)督的數(shù)據(jù)來去訓練它,但這個標注的成本還是非常大的。是不是也是有一種可能就是做數(shù)據(jù)增強會彌補第一步我們標注的一個不足。當然在網(wǎng)上也有很多討論,但是從強化學習本身具有的優(yōu)勢來說,比如可以優(yōu)化長期目標(序列級別的好與壞),或者是優(yōu)化一個不可微分的獎勵(比如人類反饋),RLHF在大語言模型應用還是非常有意義的。

Q2:深度強化學習中DQN和Actor-Critic的算法的區(qū)別是什么?

A2:其實DQN前期的話就是我們最開始RL提出來之后,它應該叫做Q-learning,在最開始的時候本質上就是根據(jù)一個Q-table智能體來做決策,其實DQN和報告里面講述的PPO應該所屬于兩類。因為PPO是基于policy來去做的,也就是我們的Model-based,基于模型來去選擇。像DQN這個算法的話,其實是基于價值來去做的,就是我們所說的Model-free,沒有Model,只需要去做一個Q函數(shù)。Q函數(shù)是給我們的每個action做一個評估,告訴我們應該去選哪個action。但是Q函數(shù)吐出來的應該是一個Q值,它和PPO里面的reward還不太一樣。Q值其實描述的是在當前的一個決策下,對未來回報的一個影響。就是比如我們有兩個決策A和B,你選擇A的話,預測一個Q值,描述的是我們未來所有獎勵的一個總和。Q-table是做了一個tab表,在面對一個狀態(tài)或者是一個決策的時候,可以去查表看哪個狀態(tài)和表對應,它是有一列的數(shù)。當然它也有一定的優(yōu)化方法來去調整這個表。然后查完表之后,選擇一個最大的。DQN里面的N就是network,就是相當于引入了深度學習的一個方法。這個Q-table的應用在一些場景下還是比較受限的,比如決策空間非常大的一個情況。這個表無限大,我們怎么辦?我們是不是能去拿一個神經(jīng)網(wǎng)絡來去刻畫這個表,也就引起了DQN。就是用一個模型來去代替這個表,然后我們輸入的時候把一個狀態(tài)和一個行為來去輸入,然后這個表就可以預測一個Q函數(shù),供我們來去選擇。然后Actor-Critic是什么意思呢?它有點類似于Q值的預測和policy-base方法的一個結合。actor相當于一個policy,然后critic相當于一個評價模型。其實critic完全也可以作為一個Q函數(shù),當然也可以作為報告里面講的這個Reward Model。其實在最開始的時候給大家介紹的就是剛開始08年提出來一個方法,是不是能用人類的專業(yè)知識去直接指導智能體的學習,它其實用的也是Actor-Critic的框架。講那么多感覺Actor-Critic還是比較復雜,而且感覺好像似乎很有用的一個樣子,但是為什么OpenAI沒有去用。Actor-Critic看似非常的work,非常的好。但是在實際的訓練中,Actor在訓練,Critic也在訓練,就會導致一種現(xiàn)象,Actor不斷地從一個變化的網(wǎng)絡的一個計算結果中來去學習。這樣會導致很不穩(wěn)定,就是我們可能訓練起來比較復雜,可能相對于PPO訓練的一個穩(wěn)定性稍微差一點。這當然這也是在某種場景上來去說的。當然,可能OpenAI本身在強化學習領域研究的一個積累,因為相當于PPO是他們團隊最早提出來的。因為當時做InstructGPT的作者也是PPO的一個作者。對強化學習的積累可能也是比較豐富,因此,也有限嘗試用PPO來去解決大模型從人類反饋中進行學習的問題。

Q3:目前有什么比較好用的大模型RLHF的訓練開源工具?

A3:開源工具的話,像國內的話LLaMA Efficient Tuning還是比較優(yōu)秀的,比較完善的,包括SFT的訓練、Reward Model的訓練和PPO的訓練都做的比較完善,大家用起來也比較方便。然后也是一個不錯的開源工作,專門針對于大語言模型來去做強化學習訓練的話,國外的開源的有一套trl,做大語言模型強化學習方面做的還比較全,而且也是能直接套用現(xiàn)在的一些主流的預訓練語言模型來去做。

Q4:強化學習和反饋神經(jīng)網(wǎng)絡有什么區(qū)別?

A4:強化學習和反饋神經(jīng)網(wǎng)絡其實我感覺它是兩種概念吧,強化學習更傾向于是一種訓練的方法。就是比如像有監(jiān)督學習,半監(jiān)督學習等等這種訓練的一個方法。反饋神經(jīng)網(wǎng)絡更傾向于是一種網(wǎng)絡結構的設計。就比如咱們CNN、RNN、LSTM這種網(wǎng)絡的設計。雖然反饋神經(jīng)網(wǎng)絡和RLHF都帶一個反饋,但他倆表述的含義還不太一樣。傳統(tǒng)的神經(jīng)網(wǎng)絡每個神經(jīng)元的輸出可能直接傳到下一個神經(jīng)元,或者比如圖神經(jīng)網(wǎng)絡,可能傳到后一個神經(jīng)元。但是反饋神經(jīng)網(wǎng)絡的輸出可以反饋給它自身,然后讓它自身去進行計算,然后更好地去建模一些問題,或者提升模型的擬合能力。基于人類反饋的強化學習里面的反饋描述的是一種人類的一種評價。就比如我們接收到一個什么樣的一個決策,然后進行反饋,更多的是描述一種獎懲的概念。

Q5:為什么強化學習應用在序列生成過程中需要進行采樣?

A5:采樣的話可以看一下PPO實際的訓練。其實PPO的訓練理論上是最大化獎勵的總和。獎勵的總和可以看一下E值如果拆分的話,就是一個P值,相當于一個y值,P括號y然后加和它的r,把這個期望如果化簡的話。但是我們要面臨的一個問題就是如果在序列生成的一個情況下,y值描述所有生成的可能性,這個可能性還是非常非常大的。因此我們想去刻畫這個東西還是非常的困難,甚至不可能。因此我們是不是可以采樣部分的序列,連續(xù)近似它的一個生成空間來去進行計算,或者進行優(yōu)化policy。當然像傳統(tǒng)的訓練方法,如果拋開PPO不講的話,大家可以去了解一下之前有一個MRT,最小風險訓練。當時提出是在機器翻譯來去訓練的,那篇論文描述這個問題還是非常好的。就是說我們的一個生成空間非常非常大,因此我們是不是能去采樣出來部分的一個序列來去近似我們的一個生成空間,然后來去更新我們的policy。如果在實際采樣的過程中,采樣非常非常非常多的話,其實在后部的一個情況下,可能它大部分生成的序列都是沒有用的,可能就是千篇一律的,都是非常差,可能也對更新沒有太大作用。當然采樣的過程也是非常有講究的??赡苣闶褂胻op-k采樣,或者beam search采樣,或者top-p采樣,或者是diversity beam search采樣,在我們研究的過程中根據(jù)不同的采樣方法,它的優(yōu)化效果還是不一樣的。源頭就是因為根據(jù)不同采樣策略采樣出來的樣本可能對你的優(yōu)化作用還是不一樣的。如果采樣出來的一個樣本是非常非常差的話,或者非常非常一致的話,可能對優(yōu)化的益處并不是很大。反而在強化學習里面還是不是很容易訓練的,原因就是如果采樣出來一些比較壞的樣本,它會達到一個什么樣的效果呢?它也許會把你的policy,就是你訓練的一個模型帶到一個非常非常差的一個狀態(tài)。導致你這個model再怎么訓,性能就是起不來了。大家如果實際過程中真正做RLHF,或者做序列生成上RL的訓練,在這一塊還是非常要注意的,采樣的步驟還是非常重要的,采樣出來什么樣本還是非常重要的。我們團隊也做出來一些工作,在最近也會放到網(wǎng)上給大家去參考。動態(tài)采樣就是如果我們摒棄掉一些不必要的采樣,雖然在一定程度上減少了一些更新的次數(shù),減少了一些優(yōu)化的次數(shù)。但是我們拿到的效果也許會變好。當然我們也是從RL傳統(tǒng)的一些理論來去解釋它,比如探索與開采的平衡問題,就是當模型非常好的一個情況下,過度的開采可能對模型是有害的。當然模型可能不太好的情況下,更多的開采可能會幫助模型能達到一個更好的效果。

Q6:大語言模型的語義、語法檢驗有哪些方法?

A6:這個問題我沒太理解,但是我猜測是不是想把一些語法知識或者語義知識融入到一個Reward Model里面,或者融入到一個判別里面來去優(yōu)化對應的生成。我印象中好像是有一些工作來去做的。基于強化學習這種范式的情況下,我們去優(yōu)化生成的語句或者語義。因為在有監(jiān)督的一個情況下,其實它追求的優(yōu)化目標是最大化每一個生成目標詞的概率。其實不管是什么語義和語法,當然之前在機器翻譯里面有一篇文章,好像是Beyond Blue,大家可以去留意一下,他在機器強化學習的框架下,做了一個reward的設計。這個reward的設計可能更偏向于語義的描述,從而來直接可以優(yōu)化譯文語義。當然也在一些數(shù)據(jù)集上或者特定領域上達到一些不錯的效果。感興趣的伙伴可以去看一下Beyond Blue,當然在除了機器翻譯以外的話,像摘要或者對話任務上,我記得也有一些文章去做一些reward設計工程。是不是能去設計一些更好的reward函數(shù),或者是訓練一些更好的reward模型,來去幫助序列生成一些更高質量的內容。

Q7:SFT和RLHF的區(qū)別。

A7:可以看一下這一頁PPO的一個公式是這樣的。然后SFT的話,其實它就是一個有監(jiān)督訓練,相當于在生成每一個詞的時候,就會把它的一個維度映射到一個詞表大小的空間。然后每一個詞表大小就對應選擇當前詞的一個概率,然后相當于它用cross entropy方法來去構造一個損失函數(shù)。它的目標是在每一步生成詞的時候,最大化目標生成詞的概率。比如“我要去上學”,我們給它一個這樣的詞語,然后比如“我要 去”已經(jīng)輸入到里面了,然后預測“上學”的時候,也就是預測第三個詞的時候,相當于生成了一個詞表的大小。目標就是把“上學”這個詞的概率一直的最大化。然后就在訓練中不斷這樣,從而它達到了一個什么樣的效果呢?就是可以很好地根據(jù)上文來去預測下一個詞。但是在強化學習目標的情況下,如果我們以PPO為例,目標并不是去最大化目標生成詞的概率,它要最大化獎勵的期望。其實如果我們把這個E給化簡,這個期望給化簡的話,其實就相當于一個P(y),然后乘以r。然后如果這個r值越來越大的話,大家可以想一下,相當于我們經(jīng)過反向傳播的話,相當于把y整體的序列級別的概率最大化了。其實這個E值如果化簡開的話,其實就相當于是一個智能空間內的一個就是 ??這樣的來去做的。實際上它其實相當于一方面就是SFT和RLHF的區(qū)別,它們總體的訓練模式還是不一樣的。另一方面,它們的訓練目標還是不一樣的,這個訓練目標可能就是RLHF可能偏向于r值期望的訓練。

Q8:如果要在大模型上進行RLHF的話,有什么數(shù)據(jù)集可以訓練一個reward 嗎?

A8:如果現(xiàn)在訓reward的話也有對應的一個數(shù)據(jù)集。好像是huggingface里面大家搜一下RLHF應該會有對應的comparison數(shù)據(jù)。它里面有中文,還有英文,它的數(shù)據(jù)集的構造其實是有一個問題,然后產生了兩個答案,他會給你說哪個好、哪個壞,相當于避免了人工進行標注,然后可以直接進行訓練。然后根據(jù)rank loss來進行訓練。訓練完之后,我們就拿到了一個Reward Model。數(shù)據(jù)集是使用GPT-4來去做標注的,可能我們訓練完之后,Reward Model的作用是啥呢?就是大語言模型可能生成了偏向于GPT-4的答案,可能它給你的獎勵越高。當然如果想去做一些垂直領域上的應用或者特定數(shù)據(jù)集上的應用,咱們也可以進行標注。類似于InstructGPT這樣標。其實在我來看,如果在成本充足的情況下,咱們也可以去直接去標對應的分數(shù)。可能更方便Reward Model擬合得更加好。如果在成本有限的情況下,也可以模仿InstructGPT標注的方法,兩兩去標注大小,來去用rank loss訓練Reward Model。

以上就是直播問答環(huán)節(jié)的全部內容,下期報告《長序列建模技術》將于8月10日18:30與您相見。更多關于報告的詳細內容以及觀看直播回放可于小牛翻譯云平臺視頻號或機器翻譯學堂獲取。NiuTrans Talk,每期將邀請到不同領域的機器翻譯專家進行講解,分享行業(yè)干貨知識,帶你走進機器翻譯的世界。更多精彩內容盡在小牛翻譯直播間,想了解更多有關機器翻譯的內容請關注機器翻譯學堂或小牛翻譯官方微博號,與小牛翻譯一起探討機器翻譯技術。


關于我們

專注于機器翻譯技術基礎研究50年,擁有百余人的機器翻譯產學研團隊,自主研發(fā)以中文為核心的NiuTrans機器翻譯系統(tǒng),支持388種語言隨心互譯。通過豐富的應用與功能,為用戶提供機器翻譯服務全棧式解決方案,致力于為機器翻譯產業(yè)化應用提供基礎平臺,幫助企業(yè)級用戶在國際業(yè)務中消除語言障礙。


精彩回顧


直播回顧 | 基于人類反饋的強化學習的評論 (共 條)

分享到微博請遵守國家法律
玉山县| 温州市| 青阳县| 海原县| 宁阳县| 喀喇沁旗| 介休市| 南靖县| 荔浦县| 泰和县| 永新县| 岳西县| 巩义市| 洛川县| 岳普湖县| 大安市| 武夷山市| 阳曲县| 汉沽区| 乌拉特后旗| 那曲县| 淅川县| 永丰县| 页游| 镇沅| 图木舒克市| 平安县| 赫章县| 郑州市| 荔波县| 汝南县| 上栗县| 东丽区| 汨罗市| 运城市| 宁远县| 土默特左旗| 尖扎县| 溧阳市| 高雄县| 周宁县|