北大公開課-人工智能基礎(chǔ) 10 智能體之智能主體的類別

五種最基礎(chǔ)的智能體類型,包括了幾乎所有智能體的類型


簡(jiǎn)單反射智能體的結(jié)構(gòu)



簡(jiǎn)單反射agent的算法
定義三個(gè)量
狀態(tài):對(duì)于當(dāng)前感知的狀態(tài)輸入,將感知對(duì)應(yīng)為狀態(tài)
規(guī)則:對(duì)于狀態(tài)所匹配的規(guī)則
行為:基于規(guī)則返回的對(duì)應(yīng)行為
首先,定義行為action為空,然后根據(jù)上述感知->狀態(tài)->規(guī)則->行動(dòng)
返回對(duì)應(yīng)于當(dāng)前感知的行為

舉例,一個(gè)簡(jiǎn)單反射agent的例子
胸透系統(tǒng),


一個(gè)基于模型的反射agent
還可以處理部分可觀測(cè)環(huán)境
增加了狀態(tài)的存儲(chǔ),
增加了環(huán)境變化的信息
增加了行動(dòng)的對(duì)應(yīng)


基于模型的簡(jiǎn)單反射agent算法
增加部分: 增加了第四個(gè)變量 model
stage,表示了對(duì)于當(dāng)前外部狀態(tài)的理解
model,是關(guān)于下一個(gè)狀態(tài),如何依賴于當(dāng)前狀態(tài)和動(dòng)作的描述
rule,一套條件-動(dòng)作的對(duì)應(yīng)規(guī)則
action,當(dāng)前動(dòng)作,初始定義為空
在主要算法中,增加了update-state 函數(shù),用于基于當(dāng)前的狀態(tài)、動(dòng)作、感知、模型,來(lái)決定當(dāng)前的狀態(tài),并更新到狀態(tài)中。
根據(jù)狀態(tài)-動(dòng)作的規(guī)則表匹配,得到相應(yīng)于當(dāng)前狀態(tài)的動(dòng)作,
并將該動(dòng)作返回

基于目標(biāo)的agent
增加了 ,如果動(dòng)作A,則結(jié)果如何
增加了目標(biāo)信息


通過(guò)效用utility函數(shù),得到一個(gè)特殊的狀態(tài),用于表示某個(gè)狀態(tài)是否有效(對(duì)于目標(biāo)而言)的度量函數(shù)

更通用的性能度量的agent
理性agent的效用要求

學(xué)習(xí)agent,
優(yōu)越性在于,可以在一個(gè)未知的環(huán)境中運(yùn)行,增加了機(jī)器學(xué)習(xí)功能。
和初始的aget結(jié)構(gòu)相似。
增了一個(gè)評(píng)論者,對(duì)于學(xué)習(xí)的元素,性能的元素,對(duì)于性能進(jìn)行改進(jìn),生成問(wèn)題,得到經(jīng)驗(yàn),

學(xué)習(xí)agent的要素
學(xué)習(xí)要素、性能要素、問(wèn)題發(fā)生器

對(duì)于atari游戲(視頻游戲機(jī))的深度學(xué)習(xí),強(qiáng)化學(xué)習(xí)模型
和普通agent的區(qū)別,增加了紅線部分,增加了外部環(huán)境的回報(bào)值,并根據(jù)外部環(huán)境的回報(bào)值,決定下一步的行為。


其他agent



是否具有學(xué)習(xí)功能,
自主性如何
單一或多個(gè)agnet
三者的交集——智能agent。。也即是說(shuō)智能agent的要求就是可學(xué)習(xí)的,有自主性的,群體智能的。


智能體的幾個(gè)特化例子,用UML符號(hào)表示
生物智能體,機(jī)器人智能體,計(jì)算智能體
多個(gè)智能體是單個(gè)智能體的聚合,
單個(gè)智能體包括,
簡(jiǎn)單反射agent,基于模型的agent,基于目標(biāo)的agent,基于效用的agent,學(xué)習(xí)型agent,其他agent。

