散文網(wǎng) » 科技 »學(xué)習(xí) » Talk預(yù)告 | 清華大學(xué)陳曉宇&黎世理工黃嘉偉：基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

Talk預(yù)告 | 清華大學(xué)陳曉宇&黎世理工黃嘉偉：基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

2022-11-15 12:25 作者:TechBeat人工智能社區(qū) 0人讀過 | 我要投稿

本期為TechBeat人工智能社區(qū)第455期線上Talk！

北京時(shí)間11月17日(周四)20:00，清華大學(xué)交叉信息研究院在讀博士生——陳曉宇與蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生——黃嘉偉的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播！

他們與大家分享的主題是:?“基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)”，屆時(shí)將分別講解一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法，以及等級(jí)強(qiáng)化學(xué)習(xí)：悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret。這兩項(xiàng)工作成果均在微軟亞洲研究院實(shí)習(xí)期間完成，并均已發(fā)表在NeurIPS 2022上。

Talk·信息

主題：基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

嘉賓：清華大學(xué)交叉信息研究院在讀博士生陳曉宇

蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生黃嘉偉

時(shí)間：北京時(shí)間?11月17日?(周四) 20:00

地點(diǎn)：TechBeat人工智能社區(qū)

http://www.techbeat.net/

完整版怎么看

掃描下方二維碼，或復(fù)制鏈接https://datayi.cn/w/a9B32dNR瀏覽器，一鍵完成預(yù)約！上線后會(huì)在第一時(shí)間收到通知哦

Talk·介紹

實(shí)際應(yīng)用給強(qiáng)化學(xué)習(xí)帶來了新的挑戰(zhàn)。一方面，我們發(fā)現(xiàn)智能體所處的環(huán)境總是在變化；另一方面，我們發(fā)現(xiàn)不同用戶群體對(duì)風(fēng)險(xiǎn)的承受能力是不同的。對(duì)于前者，我們觀察到，在很多現(xiàn)實(shí)問題中，環(huán)境（例如網(wǎng)絡(luò)可用帶寬，機(jī)器人所處地形等）在一段隨機(jī)的時(shí)間內(nèi)保持不變，然后以不可預(yù)測的方式發(fā)生突然的跳變，而且這些環(huán)境變量往往是不可觀測的。為此，我們?cè)O(shè)計(jì)了一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法來及時(shí)檢測這種變化并且快速調(diào)整自身策略以適應(yīng)這樣的環(huán)境變化。針對(duì)后者，我們提出了一個(gè)新的Tiered RL 框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)（Tiered Structure）的情況。

?一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法?

在現(xiàn)實(shí)生活中，智能體所處的環(huán)境總在變化，這也是阻礙強(qiáng)化學(xué)習(xí)算法成功應(yīng)用的原因之一。我們觀察到，在很多現(xiàn)實(shí)問題中，環(huán)境（例如網(wǎng)絡(luò)可用帶寬、機(jī)器人所處地形等）在一段隨機(jī)的時(shí)間內(nèi)保持不變，然后以不可預(yù)測的方式發(fā)生突然的跳變，而且這些環(huán)境變量往往是不可觀測的。因此，智能體需要及時(shí)檢測到這種變化并快速調(diào)整自身策略以適應(yīng)這種變化。

Talk提綱如下：

背景介紹
問題建模
方法
實(shí)驗(yàn)

?等級(jí)強(qiáng)化學(xué)習(xí)：悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret

強(qiáng)化學(xué)習(xí)在很多用戶交互的產(chǎn)品中有很多成功的應(yīng)用，比如醫(yī)療領(lǐng)域、推薦系統(tǒng)等等。但是當(dāng)前的RL框架忽略了不同用戶群體對(duì)于風(fēng)險(xiǎn)的承受能力是不同的，因此我們提出了一個(gè)新的Tiered RL框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)（Tiered Structure）的情況。

Talk提綱如下：

Tiered RL框架的定義與動(dòng)機(jī)
Tiered RL框架下取得的理論結(jié)果 - 方法和背后的原理

Talk·預(yù)習(xí)資料

https://arxiv.org/abs/2205.12418

Talk·提問交流

在Talk界面下的【交流區(qū)】參與互動(dòng)！留下你的打call??和問題??，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻(xiàn)，我們都會(huì)給予你相應(yīng)的i豆積分，還會(huì)有驚喜獎(jiǎng)勵(lì)哦！

Talk·嘉賓介紹

清華大學(xué)交叉信息研究院陳建宇老師組博士生，主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)，曾在ICML、NeurIPS、AIJ等會(huì)議期刊上發(fā)表多篇論文。

黃嘉偉? 蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生

主要從事強(qiáng)化學(xué)習(xí)（理論）的研究，之前的工作主要與離線強(qiáng)化學(xué)習(xí)相關(guān)（Offline RL），在ICML，NeurIPS，ICLR等會(huì)議上發(fā)表過一些文章。

-The End-

關(guān)于TechBeat人工智能社區(qū)

TechBeat (www.techbeat.net) 是一個(gè)薈聚全球華人AI精英的成長社區(qū)。我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其學(xué)習(xí)成長。期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地，分享自己最新工作的沃土，在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地！

更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ?

標(biāo)簽：