最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【2023新書】不確定性決策與強化學(xué)習(xí):理論與算法,附251頁pdf

2023-08-25 16:13 作者:文逸君在學(xué)習(xí)  | 我要投稿


不確定性決策與強化學(xué)習(xí):理論與算法

這本書的目的是將不確定情況下的決策基礎(chǔ)結(jié)果集中在一處。特別的,目標(biāo)是對序列決策制定問題的算法和理論給出統(tǒng)一的描述,包括強化學(xué)習(xí)。從基礎(chǔ)的統(tǒng)計決策理論開始,我們進展到強化學(xué)習(xí)問題和各種解決方法。本書的最后聚焦于模型和近似算法的當(dāng)前藝術(shù)狀態(tài)。不確定性下的決策制定問題可以分解為兩部分。首先,我們?nèi)绾瘟私馐澜??這包括了關(guān)于我們最初對世界的不確定性建模的問題,以及從證據(jù)和我們的初始信仰中得出結(jié)論的問題。其次,考慮到可能改變我們結(jié)論的未來事件和觀察,我們當(dāng)前對世界的了解,我們應(yīng)該如何決定要做什么?通常,這將涉及創(chuàng)建覆蓋可能未來情況的長期計劃。也就是說,在不確定性下規(guī)劃時,我們還需要考慮在執(zhí)行我們的計劃時可能產(chǎn)生的未來知識。直觀地說,執(zhí)行涉及嘗試新事物的計劃應(yīng)該提供更多的信息,但很難判斷這些信息是否會有益。在已知能產(chǎn)生好結(jié)果的事物和試驗新事物之間的選擇被稱為探索–利用困境,它是學(xué)習(xí)和規(guī)劃互動的根源。這本書的第一部分,第1-4章,專注于非序列設(shè)置下的不確定性決策。這包括假設(shè)測試等場景,其中決策者必須根據(jù)可用證據(jù)選擇一個行動。大部分的發(fā)展都是通過貝葉斯推理和決策理論的視角給出的,其中決策者對真實情況有一個主觀信仰(以概率分布表示)。本書的第二部分,第5-8章,介紹了序列問題和馬爾可夫決策過程的形式主義。其余章節(jié)致力于強化學(xué)習(xí)問題,這是最通用的不確定性下的序列決策問題之一。最后,我們增加了一些理論和實踐練習(xí),希望能幫助讀者理解這些材料。

目錄1
目錄2


【2023新書】不確定性決策與強化學(xué)習(xí):理論與算法,附251頁pdf的評論 (共 條)

分享到微博請遵守國家法律
遂川县| 庆元县| 温州市| 新平| 邵阳县| 莱州市| 西城区| 彩票| 东港市| 湖州市| 建平县| 南城县| 海阳市| 高阳县| 池州市| 灵石县| 黄大仙区| 敦化市| 新巴尔虎左旗| 隆安县| 安新县| 五河县| 邢台县| 桃园县| 保定市| 普兰县| 文昌市| 钟山县| 长寿区| 德格县| 张掖市| 台湾省| 沙河市| 吴江市| 共和县| 萍乡市| 巢湖市| 虎林市| 和林格尔县| 万州区| 永嘉县|