07:46
根據(jù)林哥的回答我畫了個方便理解的圖
黃色的點就是固定隨機種子對整個學習過程的‘影響’
可以是
這些策略里的任意一種狀態(tài)
AI會根據(jù)當下的狀態(tài)找到一個吃當前果子的唯一解,不一定是最優(yōu)解。
然后固定這個步驟的答案,