最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

Talk預(yù)告 | 清華大學(xué)陳曉宇&黎世理工黃嘉偉 :基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

2022-11-15 12:25 作者:TechBeat人工智能社區(qū)  | 我要投稿


Image

本期為TechBeat人工智能社區(qū)455線上Talk!

北京時(shí)間11月17(周四)20:00,清華大學(xué)交叉信息研究院在讀博士生——陳曉宇蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生——黃嘉偉的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!

他們與大家分享的主題是:?“基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)”,屆時(shí)將分別講解一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法 ,以及等級(jí)強(qiáng)化學(xué)習(xí):悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret。這兩項(xiàng)工作成果均在微軟亞洲研究院實(shí)習(xí)期間完成,并均已發(fā)表在NeurIPS 2022上。


Talk·信息

主題:基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)

嘉賓:清華大學(xué)交叉信息研究院在讀博士生陳曉宇

蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生黃嘉偉

時(shí)間:北京時(shí)間?11月17日?(周四) 20:00

地點(diǎn):TechBeat人工智能社區(qū)

http://www.techbeat.net/

?長按識(shí)別二維碼,一鍵預(yù)約TALK!


完整版怎么看

掃描下方二維碼,或復(fù)制鏈接https://datayi.cn/w/a9B32dNR瀏覽器,一鍵完成預(yù)約!上線后會(huì)在第一時(shí)間收到通知哦


Talk·介紹

實(shí)際應(yīng)用給強(qiáng)化學(xué)習(xí)帶來了新的挑戰(zhàn)。一方面,我們發(fā)現(xiàn)智能體所處的環(huán)境總是在變化;另一方面,我們發(fā)現(xiàn)不同用戶群體對(duì)風(fēng)險(xiǎn)的承受能力是不同的。對(duì)于前者,我們觀察到,在很多現(xiàn)實(shí)問題中,環(huán)境(例如網(wǎng)絡(luò)可用帶寬,機(jī)器人所處地形等)在一段隨機(jī)的時(shí)間內(nèi)保持不變,然后以不可預(yù)測的方式發(fā)生突然的跳變,而且這些環(huán)境變量往往是不可觀測的。為此,我們?cè)O(shè)計(jì)了一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法來及時(shí)檢測這種變化并且快速調(diào)整自身策略以適應(yīng)這樣的環(huán)境變化。針對(duì)后者,我們提出了一個(gè)新的Tiered RL 框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)(Tiered Structure)的情況。


?一種針對(duì)分段平穩(wěn)環(huán)境的自適應(yīng)深度強(qiáng)化學(xué)習(xí)方法?

在現(xiàn)實(shí)生活中,智能體所處的環(huán)境總在變化,這也是阻礙強(qiáng)化學(xué)習(xí)算法成功應(yīng)用的原因之一。我們觀察到,在很多現(xiàn)實(shí)問題中,環(huán)境(例如網(wǎng)絡(luò)可用帶寬、機(jī)器人所處地形等)在一段隨機(jī)的時(shí)間內(nèi)保持不變,然后以不可預(yù)測的方式發(fā)生突然的跳變,而且這些環(huán)境變量往往是不可觀測的。因此,智能體需要及時(shí)檢測到這種變化并快速調(diào)整自身策略以適應(yīng)這種變化。

Talk提綱如下:

  • 背景介紹

  • 問題建模

  • 方法

  • 實(shí)驗(yàn)

?等級(jí)強(qiáng)化學(xué)習(xí):悲觀面對(duì)風(fēng)險(xiǎn)與常數(shù)regret

強(qiáng)化學(xué)習(xí)在很多用戶交互的產(chǎn)品中有很多成功的應(yīng)用,比如醫(yī)療領(lǐng)域、推薦系統(tǒng)等等。但是當(dāng)前的RL框架忽略了不同用戶群體對(duì)于風(fēng)險(xiǎn)的承受能力是不同的,因此我們提出了一個(gè)新的Tiered RL框架來應(yīng)對(duì)這種用戶群體有層級(jí)結(jié)構(gòu)(Tiered Structure)的情況。

Talk提綱如下:

  • Tiered RL框架的定義與動(dòng)機(jī)

  • Tiered RL框架下取得的理論結(jié)果 - 方法和背后的原理

Talk·預(yù)習(xí)資料

  • https://arxiv.org/abs/2205.12418


Talk·提問交流


在Talk界面下的【交流區(qū)】參與互動(dòng)!留下你的打call??和問題??,和更多小伙伴們共同討論,被講者直接翻牌解答!

Image

你的每一次貢獻(xiàn),我們都會(huì)給予你相應(yīng)的i豆積分,還會(huì)有驚喜獎(jiǎng)勵(lì)哦!


Talk·嘉賓介紹

Image
陳曉宇 清華大學(xué)交叉信息研究院在讀博士生

清華大學(xué)交叉信息研究院陳建宇老師組博士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí),曾在ICML、NeurIPS、AIJ等會(huì)議期刊上發(fā)表多篇論文。

Image
黃嘉偉? 蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)科學(xué)在讀博士生

主要從事強(qiáng)化學(xué)習(xí)(理論)的研究,之前的工作主要與離線強(qiáng)化學(xué)習(xí)相關(guān)(Offline RL),在ICML,NeurIPS,ICLR等會(huì)議上發(fā)表過一些文章。

長按識(shí)別二維碼,一鍵預(yù)約TALK!


-The End-


關(guān)于TechBeat人工智能社區(qū)

TechBeat (www.techbeat.net) 是一個(gè)薈聚全球華人AI精英的成長社區(qū)。 我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長。 期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地!

更多詳細(xì)介紹>>https://mp.weixin.qq.com/s/pTbCK_MeTk05jK2yx1RTrQ?

Talk預(yù)告 | 清華大學(xué)陳曉宇&黎世理工黃嘉偉 :基于實(shí)際應(yīng)用的強(qiáng)化學(xué)習(xí)的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
信阳市| 泉州市| 安康市| 邯郸县| 沧州市| 卓资县| 诏安县| 彰化县| 南岸区| 正蓝旗| 吐鲁番市| 平山县| 高平市| 社旗县| 彰化县| 高密市| 志丹县| 乾安县| 武安市| 饶阳县| 广宗县| 霍林郭勒市| 威远县| 平遥县| 绥化市| 林州市| 民丰县| 阜新市| 长白| 和平区| 五河县| 南澳县| 旺苍县| 托里县| 金塔县| 禄丰县| 开阳县| 炎陵县| 濉溪县| 栾城县| 都匀市|