ChatGPT之后的下一個(gè)Killer:AI Agent智能體
自從今年年初ChatGPT引爆了生成式AI的概念之后,就有大量的企業(yè)和投資人宣布要進(jìn)入AI行業(yè),一場轟轟烈烈的“百模大戰(zhàn)”由此展開。然而,在短短半年之后,當(dāng)初高調(diào)下場的大多數(shù)企業(yè)再也沒有了相關(guān)聲音。
2023年3、4月,隨著AutoGPT、AgentGPT與BabyAGI等項(xiàng)目的爆火,以LLM作為核心的AI?Agent成為了解決上述問題最有前景的方向。雖然初期的AI?Agent項(xiàng)目功能并不完善,但它們確實(shí)代表了邁向更復(fù)雜的人工智能的早期趨勢。

AI?Agent與單純的LLM不同:大語言模型如ChatGPT的使用基本為人機(jī)問答的形式,人類在文本框內(nèi)輸入問題,大語言模型做出回答;AI?Agent則更進(jìn)一步,不僅可以告訴人類如何做,更可以在現(xiàn)實(shí)中幫人做,是一個(gè)能自主理解、規(guī)劃、執(zhí)行復(fù)雜任務(wù)的系統(tǒng)。于是,能夠自主執(zhí)行、獨(dú)立運(yùn)作的AI?Agent開始被認(rèn)為是“變革社會(huì)的生產(chǎn)力工具”,更有人將其視為“通往通用人工智能(AGI)時(shí)代的開始”。
Agent具體是如何工作的?
以實(shí)在智能推出的首個(gè)基于大模型的Agent產(chǎn)品TARS-RPA-Agent產(chǎn)品為例做個(gè)簡單概述:通俗來講,TARS-RPA-Agent就是可以讓流程自動(dòng)化完成自動(dòng)化流程,即通過文本指令或?qū)υ捔奶斓姆绞街苯由蓴?shù)字員工,操作PC電腦自主完成工作任務(wù)。RPA不再是專業(yè)人士的自動(dòng)化工具,也不再是小白都能上手的產(chǎn)品,而是人人可用、“所說即所得”的“傻瓜模式”。

在實(shí)際場景中,TARS-RPA-Agent支持將表述簡單但含義復(fù)雜的指令,自主拆解和細(xì)化,之后自動(dòng)生成可控的復(fù)雜流程。例如,如果你問TARS-RPA-Agent“我要買一臺(tái)筆記本電腦,幫我推薦下”,TARS-RPA-Agent基于計(jì)算機(jī)視覺大模型的“智能屏幕語義理解”技術(shù)(ISSUT)“秒懂”屏幕畫面,第一時(shí)間完成自動(dòng)解析,并且將其拆解成“登錄購物網(wǎng)站,查詢筆記本電腦品牌、配置、價(jià)格等信息,完成產(chǎn)品推薦”等多個(gè)步驟并加以自動(dòng)實(shí)現(xiàn)。在這個(gè)過程中,TARS-RPA-Agent也存在避免理解偏差或者操作失誤的反饋機(jī)制,以及結(jié)合上下文擴(kuò)展和向量檢索等技術(shù)下的長時(shí)記憶能力,以便后續(xù)分析和優(yōu)化。
在這其中,不僅展現(xiàn)了TARS-RPA-Agent基于“智能屏幕語義理解”技術(shù)(ISSUT)感知環(huán)境、理解屏幕的能力,更是包含了保證每一步操作正確性的執(zhí)行反饋機(jī)制,環(huán)環(huán)相扣。此外,為了后續(xù)分析和優(yōu)化,不在同一個(gè)坑里摔倒,它還有著長時(shí)記憶的能力,持續(xù)提升人機(jī)協(xié)同效率。
無論是從企業(yè)層面的商業(yè)考量看,還是從社會(huì)層面的總體價(jià)值看,將更多資源投入AI智能體而非通用大模型都是更為前瞻性的。因此,隨著更多的資源從大模型轉(zhuǎn)向AI智能體,整個(gè)AI行業(yè)將有望從現(xiàn)在的泡沫性繁榮走向更為穩(wěn)健的成長。
總而言之,無論是對于AI行業(yè),還是對于整體的經(jīng)濟(jì)發(fā)展而言,Agent智能體都能帶來很多巨大的機(jī)會(huì)。AIGC驅(qū)動(dòng)下,《星際穿越》里的機(jī)器人TARS塔斯也走進(jìn)了現(xiàn)實(shí),它能夠進(jìn)行各種高度擬人化的行動(dòng),AI數(shù)字助理時(shí)代即將來臨。