Talk預(yù)告 | 清華大學(xué)陳曉宇&黎世理工黃嘉偉 :基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

本期為TechBeat人工智能社區(qū)第455期線上Talk!
北京時(shí)間11月17日(周四)20:00,清華大學(xué)交叉信息研究院在讀博士生——陳曉宇與蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生——黃嘉偉的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!
他們與大家分享的主題是:?“基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)”,屆時(shí)將分別講解一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法 ,以及等級(jí)強(qiáng)化學(xué)習(xí):悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret。這兩項(xiàng)工作成果均在微軟亞洲研究院實(shí)習(xí)期間完成,并均已發(fā)表在NeurIPS 2022上。
Talk·信息
主題:基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)
嘉賓:清華大學(xué)交叉信息研究院在讀博士生陳曉宇
蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生黃嘉偉
時(shí)間:北京時(shí)間?11月17日?(周四) 20:00
地點(diǎn):TechBeat人工智能社區(qū)
http://www.techbeat.net/

完整版怎么看
掃描下方二維碼,或復(fù)制鏈接https://datayi.cn/w/a9B32dNR瀏覽器,一鍵完成預(yù)約!上線后會(huì)在第一時(shí)間收到通知哦
Talk·介紹
實(shí)際應(yīng)用給強(qiáng)化學(xué)習(xí)帶來了新的挑戰(zhàn)。一方面,我們發(fā)現(xiàn)智能體所處的環(huán)境總是在變化;另一方面,我們發(fā)現(xiàn)不同用戶群體對(duì)風(fēng)險(xiǎn)的承受能力是不同的。對(duì)于前者,我們觀察到,在很多現(xiàn)實(shí)問題中,環(huán)境(例如網(wǎng)絡(luò)可用帶寬,機(jī)器人所處地形等)在一段隨機(jī)的時(shí)間內(nèi)保持不變,然后以不可預(yù)測的方式發(fā)生突然的跳變,而且這些環(huán)境變量往往是不可觀測的。為此,我們?cè)O(shè)計(jì)了一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法來及時(shí)檢測這種變化并且快速調(diào)整自身策略以適應(yīng)這樣的環(huán)境變化。針對(duì)后者,我們提出了一個(gè)新的Tiered RL 框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)(Tiered Structure)的情況。
?一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法?
在現(xiàn)實(shí)生活中,智能體所處的環(huán)境總在變化,這也是阻礙強(qiáng)化學(xué)習(xí)算法成功應(yīng)用的原因之一。我們觀察到,在很多現(xiàn)實(shí)問題中,環(huán)境(例如網(wǎng)絡(luò)可用帶寬、機(jī)器人所處地形等)在一段隨機(jī)的時(shí)間內(nèi)保持不變,然后以不可預(yù)測的方式發(fā)生突然的跳變,而且這些環(huán)境變量往往是不可觀測的。因此,智能體需要及時(shí)檢測到這種變化并快速調(diào)整自身策略以適應(yīng)這種變化。
Talk提綱如下:
背景介紹
問題建模
方法
實(shí)驗(yàn)
?等級(jí)強(qiáng)化學(xué)習(xí):悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret
強(qiáng)化學(xué)習(xí)在很多用戶交互的產(chǎn)品中有很多成功的應(yīng)用,比如醫(yī)療領(lǐng)域、推薦系統(tǒng)等等。但是當(dāng)前的RL框架忽略了不同用戶群體對(duì)于風(fēng)險(xiǎn)的承受能力是不同的,因此我們提出了一個(gè)新的Tiered RL框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)(Tiered Structure)的情況。
Talk提綱如下:
Tiered RL框架的定義與動(dòng)機(jī)
Tiered RL框架下取得的理論結(jié)果 - 方法和背后的原理
Talk·預(yù)習(xí)資料
https://arxiv.org/abs/2205.12418
Talk·提問交流
在Talk界面下的【交流區(qū)】參與互動(dòng)!留下你的打call??和問題??,和更多小伙伴們共同討論,被講者直接翻牌解答!

你的每一次貢獻(xiàn),我們都會(huì)給予你相應(yīng)的i豆積分,還會(huì)有驚喜獎(jiǎng)勵(lì)哦!
Talk·嘉賓介紹

清華大學(xué)交叉信息研究院陳建宇老師組博士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí),曾在ICML、NeurIPS、AIJ等會(huì)議期刊上發(fā)表多篇論文。

主要從事強(qiáng)化學(xué)習(xí)(理論)的研究,之前的工作主要與離線強(qiáng)化學(xué)習(xí)相關(guān)(Offline RL),在ICML,NeurIPS,ICLR等會(huì)議上發(fā)表過一些文章。

-The End-

關(guān)于TechBeat人工智能社區(qū)
TechBeat (www.techbeat.net) 是一個(gè)薈聚全球華人AI精英的成長社區(qū)。 我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長。 期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地!
更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ?