北大公開課-人工智能基礎 49 決策理論規(guī)劃

決策規(guī)劃,從初始狀態(tài),經過一系列動作,達到目標狀態(tài)
決策理論規(guī)劃,用最小代價,從初始狀態(tài),到達目標狀態(tài)
最小代價,相當于最大期望效應 MEU (一系列效用函數值最大化的節(jié)點集合)




馬爾可夫模型
離散時間,隨機控制,但是最終動作的結果,僅僅取決于當前狀態(tài)(定向擴散)

經典規(guī)劃的核心要素
環(huán)境確定,狀態(tài)完全可知,求解是找到一個從初始狀態(tài)出發(fā)到達目標狀態(tài)的解
馬爾可夫決策
智能體處于的環(huán)境是隨機的,時間是離散的;求解的目的是找到一個控制其(擴散)的過程

馬爾可夫決策的核心問題不在于找到策略和解,核心問題在于找到效用函數


效用值迭代等式


策略迭代
U效用相當于每一個步驟的相對最大值MEU的集合。


標簽: