Agent寒武紀(jì)大爆發(fā),下半場是大模型應(yīng)用層的“生存競賽”
寒武紀(jì)生命大爆發(fā)是地球生命進(jìn)化史上的一個重要事件。在5.4億至3.6億年前,海洋生物數(shù)量迅速增加,許多新的復(fù)雜生物形態(tài)如三葉蟲、原始甲殼動物、海綿和脊索動物等更高層次的智能誕生了。類似于寒武紀(jì)生命大爆發(fā),BabyGPT、AutoGPT、Generative?Agents等實驗性產(chǎn)品相繼出現(xiàn)。

從進(jìn)化的角度來看,生命體的發(fā)展主要通過單元增強(qiáng)和組織增強(qiáng)兩種方式實現(xiàn)。這兩種增強(qiáng)方式相輔相成,使生命體具備了更多樣復(fù)雜的表達(dá)形式。如同Agent——我們希望它是在任何系統(tǒng)中能夠獨立思考并與環(huán)境交互的智能體。現(xiàn)在它已經(jīng)有了一顆足夠智商的“大腦”,如何讓Agent像人一樣思考和執(zhí)行——只要給定任何一個目標(biāo),它就能自動解決各種問題。
在大模型的下半場,將是Agent寒武紀(jì)落地爆發(fā)的時刻。
OpenAI聯(lián)合創(chuàng)始人Andrej?Karpathy也高呼:“AI?Agent代表著一個瘋狂的未來。”而究竟什么是Agent?Agent可以理解為某種能自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體。Agent并非ChatGPT升級版,它不僅告訴你“如何做”,更會幫你去做。
雖然ChatGPT開啟了“你問我答”的全新產(chǎn)品交互形態(tài),也帶來了大模型的科技浪潮。但驚喜之外,如何使用GPT成為大模型的普及瓶頸。非產(chǎn)品級應(yīng)用AutoGPT的橫空出世,一方面帶來了解決方案,另一方面揭示了將大模型與電腦操作結(jié)合起來,解決腦力勞動端到端的智能化和自動化是人工智能最值得探索的方向。
2023年8月16日,實在智能作為國內(nèi)AI準(zhǔn)獨角獸企業(yè)在第七次發(fā)布會上重磅推出了自研垂直大語言模型“塔斯(TARS)”,同時引爆業(yè)界的是全國首個基于大模型的TARS-RPA-Agent產(chǎn)品,實現(xiàn)“所說即所得,你說PC做”。
這是一個全新的嘗試和探索,實在智能基于TARS大語言模型(通用基礎(chǔ)模型、各個垂直行業(yè)模型)+ISSUT(智能屏幕語義理解)機(jī)器視覺大模型雙模引擎,重構(gòu)了技術(shù)底座,不僅首創(chuàng)了TARS-RPA-Agent,更對自身AI產(chǎn)品矩陣進(jìn)行了全新改造,驚喜推出了TARS+、Chat+系列全新產(chǎn)品:Chat-IDP(智能文本審閱)、ChatBot(智能對話機(jī)器人)、ChatPlatform(智能門戶平臺)、TARS+國產(chǎn)信創(chuàng)IPA數(shù)字員工等。
而Agent究竟能為人類帶來哪些方便呢?以請假這個常見場景為例,對于人類而言非常易懂、易處理,但如果要讓大模型準(zhǔn)確理解并自動操作完成任務(wù),存在比較高的技術(shù)門檻。大模型需要理解,再需要執(zhí)行,這其中無論是理解意圖還是精準(zhǔn)識別操作頁面,都存在技術(shù)難點。
在這種情況下,TARS-RPA-Agent的雙模引擎就發(fā)揮了作用?;谟嬎銠C(jī)視覺(CV)大模型的“智能屏幕語義理解”技術(shù),使得TARS-RPA-Agent可以以人類視角,感知環(huán)境,實現(xiàn)“秒懂”屏幕畫面,第一時間完成自動解析。
而這種通過文本指令或?qū)υ捔奶斓姆绞街苯由蓴?shù)字員工,操作各種電腦軟件自主完成工作任務(wù),正是TARS-RPA-Agent的核心工作流程,即自主拆解任務(wù)、感知當(dāng)前環(huán)境、執(zhí)行并且反饋、記憶歷史經(jīng)驗。
類似于寒武紀(jì)生命大爆發(fā),未來是Agent的世界,越來越多的應(yīng)用將在應(yīng)用層上出現(xiàn)。這些應(yīng)用不斷迭代和更新,逐漸展現(xiàn)出更加復(fù)雜的智能形態(tài)。這意味著我們正在經(jīng)歷人工智能的高速發(fā)展期,大模型將極大地推動各個領(lǐng)域的發(fā)展和變革。