強化學習是一類算法,是讓計算機實現(xiàn)從一開始完全隨機的進行操作,通過不斷地嘗試,從錯誤中學習,最后找到規(guī)律,學會了達到目的的方法。這就是一個完整的強化學習過程。讓計算機在不斷的嘗試中更新自己的行為,從而一步步學習如何操自己的行為得到高分。
它主要包含四個元素,Agent、環(huán)境狀態(tài)、行動、獎勵,強化學習的目標就是獲得最多的累計獎勵。
讓我們想象一下比賽現(xiàn)成: