AI Agent:大模型改變世界的“鑰匙”
當前大模型的本質是大語言模型(Large?Language?Model,?LLM)。相較于傳統的自然語言處理模型,LLM通過無監(jiān)督訓練,從大量文本數據中學習自然語言的模式和結構,在一定程度上能夠更加準確地模擬人類的語言理解和生成過程,還展現出一定的邏輯思維和推理能力。
但是,LLM遠遠不足以處理復雜的現實問題,如基于天氣、人流量等數據完成旅游線路的規(guī)劃、基于實時更新的市場數據完成交易策略的模擬甚至構建一個全新的交易策略等。
2023年3、4月,隨著AutoGPT、AgentGPT與BabyAGI等項目的爆火,以LLM作為核心的AI?Agent成為了解決上述問題最有前景的方向。雖然初期的AI?Agent項目功能并不完善,但它們確實代表了邁向更復雜的人工智能的早期趨勢。
AI?Agent與單純的LLM不同:大語言模型如ChatGPT的使用基本為人機問答的形式,人類在文本框內輸入問題,大語言模型做出回答;AI?Agent則更進一步,不僅可以告訴人類如何做,更可以在現實中幫人做,是一個能自主理解、規(guī)劃、執(zhí)行復雜任務的系統。于是,能夠自主執(zhí)行、獨立運作的AI?Agent開始被認為是“變革社會的生產力工具”,更有人將其視為“通往通用人工智能(AGI)時代的開始”
AI?Agent具體是如何工作的?實在智能的TARS-RPA-Agent展現出了強大的功能特點。實在智能在業(yè)界首發(fā)基于大模型的Agent產品,即TARS-RPA-Agent,就是一個基于“TARS+ISSUT”雙模引擎,有“大腦”,更有“眼睛和手腳”的超自動化智能體。自研垂直領域TARS塔斯大模型是AI?Agent的大腦,并輔以CV大模型(ISSUT)以及RPA等前沿技術的規(guī)劃、記憶與工具使用,實現”所說即所得“,動動嘴就能實現任務的執(zhí)行。

可以看到,和TARS-RPA-Agent的交互方式也是一種類似于聊天框的方式。例如,?在日常辦公里,日報、報表、文檔的發(fā)送、會議室的預訂等“基本操作”,用戶的“一聲令下”,塔斯小助手就在與你在同一時間同頻開展工作,從按先后順序工作到高效并行工作。
當然這背后,有著層層難卡。首先是它要理解你的意圖,其次是要幫你準確執(zhí)行。對于基于瀏覽器的軟件(B/S架構)理解層面還相對簡單,可以采用解析網頁源碼等方案。但對于一些PC軟件、基于Windows和信創(chuàng)操作系統的千萬種客戶端軟件(C/S架構)而言,并不存在應對無限多種可能場景的無限多種“標準接口”(如請假等)。因此,只能選擇RPA的方式,模擬人類操作執(zhí)行。
緊接著,又會遇到如何對軟件界面精準識別的難題,“智能屏幕語義理解”技術(ISSUT)就為TARS-RPA-Agent裝上了感知世界的眼睛,能夠感知環(huán)境,秒懂屏幕,做出精準操作。
如果未來更多類似于實在TARS-RPA-Agent一樣的Agent產品大幅落地,則AI?Agent將成為全球數字革命的轉折點,使“AI泡沫的傳言”化為烏有,并打開一扇嶄新的科技世界之門。