【直播預(yù)告】SFFAI 105 強化學(xué)習(xí)專題
強化學(xué)習(xí)近年來在控制、機器人、自動駕駛、多智能體、在線決策等領(lǐng)域得到了廣大的發(fā)展。但這些成功大多基于實驗上的探索,缺乏數(shù)學(xué)上的性能保障。因此,從理論上理解強化學(xué)習(xí)算法的穩(wěn)定性與收斂性顯得尤為重要。雙Q-學(xué)習(xí)就是這樣一個例子。雙Q-學(xué)習(xí)被提出以解決Q-學(xué)習(xí)的不穩(wěn)定性問題,作為一個啟發(fā)式算法在實踐中得到有效的應(yīng)用。但人們對其收斂性質(zhì)與收斂速度的理解非常有限。理論地證明雙Q-學(xué)習(xí)的有效性或找到雙Q-學(xué)習(xí)存在的不足能幫助研究人員更好地了解并進(jìn)而設(shè)計更有效的強化學(xué)習(xí)算法。

講者介紹
翁文濤,清華大學(xué)姚班大四在讀。主要研究興趣為大規(guī)模隨機系統(tǒng)中的算法與設(shè)計,研究問題包括云上的調(diào)度問題、按需服務(wù)平臺、以及強化學(xué)習(xí)理論。
會議題目
雙Q-學(xué)習(xí)的均方誤差
會議摘要
本文在理論上嚴(yán)格比較了雙Q-學(xué)習(xí)和Q-學(xué)習(xí)均方誤差?;谧顑?yōu)策略的唯一性和算法的收斂性假設(shè),本文基于線性隨機近似理論對Q-學(xué)習(xí)和雙Q-學(xué)習(xí)的Lyapunov方程進(jìn)行了分析。該分析對表格型和帶線性函數(shù)近似的情況均成立。我們證明了當(dāng)雙Q-學(xué)習(xí)的學(xué)習(xí)率為Q-學(xué)習(xí)的學(xué)習(xí)率的兩倍,且輸出其兩個值函數(shù)估計的平均值時,漸近意義上雙Q-學(xué)習(xí)的均方誤差與Q-學(xué)習(xí)的均方誤差是一致的。我們使用仿真實驗進(jìn)一步提供了該理論結(jié)果的實際意義。

會議亮點
1、本文首次嚴(yán)格給出雙Q學(xué)習(xí)準(zhǔn)確的漸進(jìn)意義上的均方誤差;
2、本文提供了以漸進(jìn)均方誤差為指標(biāo)比較兩種強化學(xué)習(xí)方法的理論框架;
3、本文根據(jù)文中的理論發(fā)現(xiàn),提出了改進(jìn)雙Q學(xué)習(xí)均方誤差的簡單方法。
直播時間
2021年5月9日(周日)20:00—21:00 線上直播
關(guān)注微信公眾號:人工智能前沿講習(xí),對話框回復(fù)“SFFAI104”,獲取入群二維碼
注:直播地址會分享在交流群內(nèi)

現(xiàn)代科學(xué)技術(shù)高度社會化,在科學(xué)理論與技術(shù)方法上更加趨向綜合與統(tǒng)一,為了滿足人工智能不同領(lǐng)域研究者相互交流、彼此啟發(fā)的需求,我們發(fā)起了SFFAI這個公益活動。SFFAI每周舉行一期線下活動,邀請一線科研人員分享、討論人工智能各個領(lǐng)域的前沿思想和最新成果,使專注于各個細(xì)分領(lǐng)域的研究者開拓視野、觸類旁通。
SFFAI目前主要關(guān)注機器學(xué)習(xí)、計算機視覺、自然語言處理等各個人工智能垂直領(lǐng)域及交叉領(lǐng)域的前沿進(jìn)展,將對線下討論的內(nèi)容進(jìn)行線上傳播,使后來者少踩坑,也為講者塑造個人影響力。SFFAI還在構(gòu)建人工智能領(lǐng)域的知識森林—AI Knowledge Forest,通過匯總各位參與者貢獻(xiàn)的領(lǐng)域知識,沉淀線下分享的前沿精華,使AI Knowledge Tree枝繁葉茂,為人工智能社區(qū)做出貢獻(xiàn),歡迎大家關(guān)注SFFAI論壇:https://bbs.sffai.com。
