【2023新書】不確定性決策與強化學(xué)習(xí):理論與算法,附251頁pdf

這本書的目的是將不確定情況下的決策基礎(chǔ)結(jié)果集中在一處。特別的,目標(biāo)是對序列決策制定問題的算法和理論給出統(tǒng)一的描述,包括強化學(xué)習(xí)。從基礎(chǔ)的統(tǒng)計決策理論開始,我們進展到強化學(xué)習(xí)問題和各種解決方法。本書的最后聚焦于模型和近似算法的當(dāng)前藝術(shù)狀態(tài)。不確定性下的決策制定問題可以分解為兩部分。首先,我們?nèi)绾瘟私馐澜??這包括了關(guān)于我們最初對世界的不確定性建模的問題,以及從證據(jù)和我們的初始信仰中得出結(jié)論的問題。其次,考慮到可能改變我們結(jié)論的未來事件和觀察,我們當(dāng)前對世界的了解,我們應(yīng)該如何決定要做什么?通常,這將涉及創(chuàng)建覆蓋可能未來情況的長期計劃。也就是說,在不確定性下規(guī)劃時,我們還需要考慮在執(zhí)行我們的計劃時可能產(chǎn)生的未來知識。直觀地說,執(zhí)行涉及嘗試新事物的計劃應(yīng)該提供更多的信息,但很難判斷這些信息是否會有益。在已知能產(chǎn)生好結(jié)果的事物和試驗新事物之間的選擇被稱為探索–利用困境,它是學(xué)習(xí)和規(guī)劃互動的根源。這本書的第一部分,第1-4章,專注于非序列設(shè)置下的不確定性決策。這包括假設(shè)測試等場景,其中決策者必須根據(jù)可用證據(jù)選擇一個行動。大部分的發(fā)展都是通過貝葉斯推理和決策理論的視角給出的,其中決策者對真實情況有一個主觀信仰(以概率分布表示)。本書的第二部分,第5-8章,介紹了序列問題和馬爾可夫決策過程的形式主義。其余章節(jié)致力于強化學(xué)習(xí)問題,這是最通用的不確定性下的序列決策問題之一。最后,我們增加了一些理論和實踐練習(xí),希望能幫助讀者理解這些材料。

