北大公開課-人工智能基礎 49 決策理論規(guī)劃

2023-04-02 22:58 作者:朝朝暮暮1895 0人讀過 | 我要投稿

決策規(guī)劃，從初始狀態(tài)，經過一系列動作，達到目標狀態(tài)

決策理論規(guī)劃，用最小代價，從初始狀態(tài)，到達目標狀態(tài)

最小代價，相當于最大期望效應 MEU (一系列效用函數值最大化的節(jié)點集合)

馬爾可夫模型

離散時間，隨機控制，但是最終動作的結果，僅僅取決于當前狀態(tài)（定向擴散）

經典規(guī)劃的核心要素

環(huán)境確定，狀態(tài)完全可知，求解是找到一個從初始狀態(tài)出發(fā)到達目標狀態(tài)的解

馬爾可夫決策

智能體處于的環(huán)境是隨機的，時間是離散的；求解的目的是找到一個控制其（擴散）的過程

馬爾可夫決策的核心問題不在于找到策略和解，核心問題在于找到效用函數

效用值迭代等式

策略迭代

U效用相當于每一個步驟的相對最大值MEU的集合。

標簽：

北大公開課-人工智能基礎 49 決策理論規(guī)劃的評論 (共條)