直播預(yù)告| 7月27日 基于人類反饋的強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)人類反饋(RLHF)作為自然語言生成領(lǐng)域的新興訓(xùn)練范式,被譽(yù)為大語言模型背后的“功臣”,其幫助在一般文本數(shù)據(jù)語料庫上訓(xùn)練的大語言模型和復(fù)雜的人類價(jià)值觀對齊。本質(zhì)上,RLHF把人類反饋當(dāng)作對應(yīng)的獎勵,然后使用強(qiáng)化學(xué)習(xí)算法,比如PPO,幫助大語言模型最優(yōu)化其獎勵,從而使得模型的輸出更加貼近人類的偏好,與用戶意圖保持高度一致。然而,RLHF背后的基本原理是什么呢?在何種背景下被研究人員廣泛關(guān)注和討論?又是如何應(yīng)用于大語言模型當(dāng)中?未來的發(fā)展與挑戰(zhàn)趨勢如何?
本期報(bào)告將詳細(xì)介紹大語言模型中RLHF設(shè)計(jì)方法及其技術(shù)路線,思考RLHF在大語言模型發(fā)展過程中的應(yīng)用挑戰(zhàn),并分享對RLHF相關(guān)內(nèi)容的深入研究。首先,我們將介紹大語言模型引入RLHF范式的背景,從強(qiáng)化學(xué)習(xí)基礎(chǔ)框架出發(fā)來解答為何RLFH方法能夠顯著提高大語言模型生成內(nèi)容的質(zhì)量。其次,我們將詳細(xì)講解目前最新RLHF方法背后的原理,并介紹其技術(shù)發(fā)展路線。最后,我們將從親身研究經(jīng)歷出發(fā)分享RLHF在大語言模型中的應(yīng)用細(xì)節(jié),并思考其未來發(fā)展與挑戰(zhàn)。整個(gè)報(bào)告將完整地剖析RLHF技術(shù)方法,在前幾期報(bào)告的基礎(chǔ)上幫助大家進(jìn)一步深入了解大語言模型相關(guān)前沿技術(shù)。
本期報(bào)告將于7月27日線上舉辦,屆時(shí)由來自東北大學(xué)自然語言處理實(shí)驗(yàn)室的王成龍為我們帶來《基于人類反饋的強(qiáng)化學(xué)習(xí)》報(bào)告,具體流程如下:

本次直播將分為兩部分進(jìn)行,第一部分為報(bào)告分享環(huán)節(jié),第二部分為Q&A環(huán)節(jié)。在直播過程中,小伙伴可以把問題發(fā)送到直播間中,并在Q&A環(huán)節(jié)與本期嘉賓深入探討;未被回復(fù)的問題也可私信留言,在直播結(jié)束后我們會進(jìn)行解答。
本系列直播作為公益知識分享活動,由東北大學(xué)自然語言處理實(shí)驗(yàn)室、小牛翻譯聯(lián)合推出,感謝AI科技評論、PaperWeekly、機(jī)器之心、并行科技對本次直播的大力支持,本次直播向所有聽眾免費(fèi)開放,無需注冊和報(bào)名繳費(fèi)。參會觀眾可以在【視頻號(ID:??小牛翻譯云平臺)、微博(ID:小牛翻譯)、嗶哩嗶哩(ID:小牛翻譯)、知乎(ID:小牛翻譯云平臺)、機(jī)器翻譯學(xué)堂(https://school.niutrans.com/live)】觀看直播,關(guān)注【機(jī)器翻譯學(xué)堂、小牛翻譯云平臺視頻號】即可觀看直播回放。
誠邀所有關(guān)注自然語言處理與大模型技術(shù)發(fā)展的朋友走進(jìn)直播間,2023年7月27日(周四)18:30,我們期待與您的相遇!
