Agent智能體:掌控未來(lái)的超級(jí)AI
2022年,ChatGPT開(kāi)啟AI新紀(jì)元
。
隨著ChatGPT等AIGC技術(shù)的普及,我們可以預(yù)見(jiàn)到部分行業(yè)將發(fā)生巨大的變化。 AIGC的出世無(wú)疑會(huì)產(chǎn)生革命性的影響,其強(qiáng)大的智能化能力將為各行各業(yè)帶來(lái)巨大的改變。無(wú)論是金融、醫(yī)療、教育還是零售、制造、物流等行業(yè),AIGC的應(yīng)用都將為它們帶來(lái)前所未有的便利和創(chuàng)新。 在金融領(lǐng)域,幫助銀行、證券和保險(xiǎn)等機(jī)構(gòu)實(shí)現(xiàn)智能風(fēng)控、智能投資和智能客服等功能,提高服務(wù)質(zhì)量和效率。在醫(yī)療領(lǐng)域,可以輔助醫(yī)生進(jìn)行疾病診斷、藥物研發(fā)和醫(yī)學(xué)影像分析等工作,提高醫(yī)療水平和效率;在教育領(lǐng)域,AIGC可以實(shí)現(xiàn)智能輔助教學(xué)、個(gè)性化學(xué)習(xí)和智能評(píng)估等功能,提高教育質(zhì)量和效果;在制造領(lǐng)域,AIGC可以實(shí)現(xiàn)智能制造、智能質(zhì)檢和智能維護(hù)等功能,提高生產(chǎn)效率和產(chǎn)品質(zhì)量;在物流領(lǐng)域,AIGC可以幫助企業(yè)實(shí)現(xiàn)智能調(diào)度、智能配送和智能跟蹤等功能,提高物流效率和準(zhǔn)確性。 AIGC的賦能作用不僅局限于單個(gè)行業(yè)或領(lǐng)域,其應(yīng)用還將滲透到各個(gè)產(chǎn)業(yè)和領(lǐng)域中,形成千行百業(yè)之間的聯(lián)動(dòng)和協(xié)同發(fā)展。通過(guò)AIGC的應(yīng)用,不同行業(yè)和領(lǐng)域之間的界限將變得越來(lái)越模糊,產(chǎn)業(yè)生態(tài)也將變得更加開(kāi)放和互聯(lián)。 在AIGC時(shí)代到來(lái)之際,實(shí)在智能行推出業(yè)首個(gè)基于大模型的TARS-RPA-Agent產(chǎn)品。通過(guò)“TARS大語(yǔ)言模型(通用基礎(chǔ)模型、各個(gè)垂直行業(yè)模型)+ISSUT(智能屏幕語(yǔ)義理解)機(jī)器視覺(jué)大模型”重構(gòu)了技術(shù)底座,并在這二者之上,對(duì)超自動(dòng)化產(chǎn)品矩陣升級(jí)改造,持續(xù)發(fā)布創(chuàng)新應(yīng)用。
TARS-RPA-Agent在設(shè)計(jì)過(guò)程中的解決的關(guān)鍵問(wèn)題和創(chuàng)新特性:
自主拆解任務(wù):復(fù)雜問(wèn)題,分而治之
在實(shí)際場(chǎng)景中,人類(lèi)的復(fù)雜指令往往蘊(yùn)含在非常簡(jiǎn)潔的語(yǔ)句當(dāng)中,并不是通過(guò)大模型生成一段Python代碼,或簡(jiǎn)單調(diào)用3-5個(gè)RPA組件就能實(shí)現(xiàn)。 TARS-RPA-Agent支持將表述簡(jiǎn)單但含義復(fù)雜的指令,進(jìn)行Chain-Of-Thought式的自主拆解和細(xì)化,之后將拆解出的子任務(wù)和具體步驟與實(shí)在RPA的流程塊和組件進(jìn)行映射,最終完成一體化、高可控的復(fù)雜流程生成。 例如,“我要買(mǎi)一臺(tái)筆記本電腦,幫我推薦下”,TARS-RPA-Agent可將其拆解成“登錄購(gòu)物網(wǎng)站,查詢筆記本電腦品牌、配置、價(jià)格等信息,完成產(chǎn)品推薦”等多個(gè)步驟并加以自動(dòng)實(shí)現(xiàn)。
感知當(dāng)前環(huán)境:人類(lèi)視角,理解屏幕
“如何在理解指令含義的基礎(chǔ)上,精準(zhǔn)找到所要操作的屏幕畫(huà)面上哪里是輸入框、登錄按鈕或者聊天窗口?如果不僅僅是基于瀏覽器的軟件而是成千上萬(wàn)種不同CS架構(gòu)的客戶端軟件怎么辦……” “你是我的眼”,基于計(jì)算機(jī)視覺(jué)大模型的“智能屏幕語(yǔ)義理解”技術(shù)(ISSUT)為T(mén)ARS-RPA-Agent裝上了感知世界的眼睛,帶來(lái)真正基于人類(lèi)視覺(jué)的電腦屏幕和操作對(duì)象理解。 ISSUT使得TARS-RPA-Agent可以“秒懂”屏幕畫(huà)面,第一時(shí)間完成自動(dòng)解析,無(wú)需人工介入?yún)⑴c。在無(wú)法解析網(wǎng)頁(yè)源代碼或者客戶端軟件不開(kāi)放API接口的大量真實(shí)場(chǎng)景中,ISSUT的價(jià)值倍加凸顯。
執(zhí)行并且反饋:環(huán)環(huán)相扣,單步尋優(yōu)
PDCA(計(jì)劃、執(zhí)行、檢查、處理)是人類(lèi)優(yōu)秀的工作習(xí)慣,在執(zhí)行過(guò)程中不斷反饋和修正是客觀世界的一般規(guī)律。真實(shí)場(chǎng)景的意圖理解和任務(wù)執(zhí)行非常復(fù)雜,TARS-RPA-Agent同樣需要保證每一步操作的正確性,避免因?yàn)槔斫馄睿蛘卟僮魇д`,導(dǎo)致最終無(wú)法完成任務(wù)。 因此,TARS-RPA-Agent巧妙地設(shè)計(jì)了“基于強(qiáng)化學(xué)習(xí)的單步尋優(yōu)策略和每步執(zhí)行的反饋”相關(guān)機(jī)制,不斷提高決策和執(zhí)行過(guò)程的正確性、可控性。
記憶歷史經(jīng)驗(yàn):擴(kuò)展檢索、長(zhǎng)時(shí)記憶。
“圣斗士不會(huì)被同樣的招數(shù)打敗兩次”,作為一個(gè)智能體,TARS-RPA-Agent也需要提升自主學(xué)習(xí)和迭代能力,從而能夠?qū)W習(xí)歷史經(jīng)驗(yàn),并通過(guò)歷史案例不斷提升下次遇到類(lèi)似任務(wù)時(shí)的自主決策能力,持續(xù)提升人機(jī)協(xié)同效率。 大模型的上下文保留和決策優(yōu)化等長(zhǎng)時(shí)記憶能力,通常通過(guò)內(nèi)存管理等手段實(shí)現(xiàn)。TARS-RPA-Agent也結(jié)合上下文擴(kuò)展、向量檢索等技術(shù),配備了長(zhǎng)時(shí)記憶能力,支持將過(guò)往任務(wù)的執(zhí)行情況、用戶修正、執(zhí)行結(jié)果等保存到數(shù)據(jù)庫(kù),并作為后續(xù)分析和優(yōu)化的基礎(chǔ)。 未來(lái),隨著Agent智能體的不斷發(fā)展和應(yīng)用,我們可以預(yù)見(jiàn)到更多的機(jī)會(huì)和挑戰(zhàn)。無(wú)論是AI行業(yè)還是整體經(jīng)濟(jì)發(fā)展,都需要不斷的技術(shù)創(chuàng)新和應(yīng)用探索,以實(shí)現(xiàn)更大的發(fā)展和突破。