AGI熱門方向:國內(nèi)前五AI智能體TARS-RPA-Agent落地丨實(shí)在智能
早在?1950?年代,Alan?Turing?就將「智能」的概念擴(kuò)展到了人工實(shí)體,并提出了著名的圖靈測試。這些人工智能實(shí)體通常被稱為?——?代理(Agent)。 代理這一概念起源于哲學(xué),描述了一種擁有欲望、信念、意圖以及采取行動能力的實(shí)體。在人工智能領(lǐng)域,這一術(shù)語被賦予了一層新的含義:具有自主性、反應(yīng)性、積極性和社交能力特征的智能實(shí)體。大型語言模型(LLMs)的出現(xiàn)為智能代理的進(jìn)一步發(fā)展帶來了希望。
目前,大型語言模型是最為熱門的AGI研究方向,AI?Agent(人工智能代理,Artificial?Intelligence?Agent)已是公認(rèn)大語言模型落地的有效方式之一,它是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動作的智能實(shí)體,通?;跈C(jī)器學(xué)習(xí)和人工智能技術(shù),具備自主性和自適應(yīng)性,在特定任務(wù)或領(lǐng)域中能夠自主地進(jìn)行學(xué)習(xí)和改進(jìn)。
更多的LLM,讓AIGC以更迅猛的速度進(jìn)入并影響更多業(yè)務(wù)場景,這也讓更多人看清了大語言模型創(chuàng)業(yè)的方向,讓投資者們更加看好LLM、Agent與已有企業(yè)管理軟件的融合應(yīng)用,用語言模型做AGI?也成為目前較為主流的路線。
簡單來說,AI?Agent基于LLM驅(qū)動Agent實(shí)現(xiàn)對通用問題的自動化處理,具備獨(dú)立的思考和認(rèn)知功能、擁有記憶,能進(jìn)行思考、邏輯推斷和自我反思,可以閱讀和在線學(xué)習(xí),擅長利用適當(dāng)?shù)墓ぞ咛幚韱栴},還能策劃并根據(jù)實(shí)際情況調(diào)整任務(wù)的優(yōu)先級,為LLM提供了行動能力,真正釋放了LLM的潛能。
在這其中,很多投資機(jī)構(gòu)重點(diǎn)還關(guān)注到RPA、低代碼等技術(shù)領(lǐng)域,其在自動化方面的天然屬性,并且自然語言交互能夠為其帶來相當(dāng)?shù)馁|(zhì)變,能夠為客戶端到端自動化的超自動化以及如何與AI?Agent融合。 那RPA與AI?Agent結(jié)合,會有什么樣的化合反應(yīng)呢?下面讓我們先看一個具體案例: 以往我們通過傳統(tǒng)RPA在電商平臺上搜索關(guān)鍵詞,只能圍繞已有組件去做各種形式的流程實(shí)現(xiàn),對于沒有編程能力的普通用戶而言比較復(fù)雜。而現(xiàn)在,我們通過一位“AI助理”,它在新建流程的對話窗口輸入“查詢京東中最暢銷的電視機(jī)”,提交以后,就能看到AI助理給我們反饋了流程創(chuàng)建的兩個執(zhí)行計劃。在計劃詳情中可以查看每個計劃的執(zhí)行步驟,還可以通過多輪對話修改以創(chuàng)建更復(fù)雜的流程。點(diǎn)擊執(zhí)行后,AI助理就會進(jìn)入IPA模式按計劃的詳情步驟開始執(zhí)行。 這位“AI助理”,就是國內(nèi)AI準(zhǔn)獨(dú)角獸企業(yè)實(shí)在智能業(yè)界首發(fā)的一款A(yù)I?Agent類RPA產(chǎn)品,TARS-RPA-Agent。TARS-RPA-Agent是一個真正的產(chǎn)品級Agent,是普通用戶不需要部署就能方便使用的大語言模型智能體,基于“TARS+ISSUT(智能屏幕語義理解)”雙模引擎、有“大腦”,更有“眼睛和手腳”的超自動化智能體,是能夠自主拆解任務(wù)、感知當(dāng)前環(huán)境、執(zhí)行并且反饋、記憶歷史經(jīng)驗的RPA全新模式產(chǎn)品。 繼續(xù)以上述web端案例,通過與TARS對話,ChatRPA自動創(chuàng)建在京東查詢商品數(shù)據(jù)的流程為例,現(xiàn)在基于大語言模型的ChatRPA具備了“遇河搭橋”的能力,在沒有組件可調(diào)用的情況下直接生成一個組件,進(jìn)而保證流程的創(chuàng)建與執(zhí)行。流程并不是一下就生成的,TARS-RPA-Agent會不斷修改用戶意圖,不斷完善流程,流程可以越做越復(fù)雜,最后會變成一個高可用的標(biāo)準(zhǔn)流程。當(dāng)遇到不能執(zhí)行的步驟,ChatRPA只需要人工通過繼續(xù)對話或者按照提示點(diǎn)擊相應(yīng)頁面元素,流程就能持續(xù)創(chuàng)建,全流程基本都是自動化創(chuàng)建,人工參與的部分已經(jīng)很少。 隨著不斷的數(shù)據(jù)喂養(yǎng)與加強(qiáng)學(xué)習(xí),以后它還能生成更復(fù)雜的組件以創(chuàng)建復(fù)雜的長流程。這就相當(dāng)于用戶在創(chuàng)建流程的時候身邊有個具備業(yè)務(wù)能力的程序員在做指導(dǎo),總能以最簡單最優(yōu)化的方式幫助用戶去實(shí)現(xiàn)各種流程的創(chuàng)建與執(zhí)行。 大語言模型本質(zhì)上是一個語言模型,它能夠分析邏輯,卻看不到要操作的對象。而通過計算機(jī)視覺告訴LLM操作對象在哪里,它就可以進(jìn)一步去操作各種對象驅(qū)動RPA去創(chuàng)建各種流程。 過去的RPA模式,用戶可能還得根據(jù)AI推薦去找一些需要被操作的對象元素。TARS-RPA-Agent則更進(jìn)一步,不需要去指定元素,只需要告訴模型要操作的目標(biāo)是什么,它刷一下當(dāng)前的屏幕,就能根據(jù)屏幕語義理解意思,直接命中目標(biāo)元素。 因此,TARS-RPA-Agent與其他Agent的不同之處在于,目前大多數(shù)AI?Agent產(chǎn)品仍是基于語言模型的綜合應(yīng)用,而TARS-RPA-Agent是計算機(jī)視覺和大模型的結(jié)合。這在全球Agent領(lǐng)域也是不多見的,更是RPA領(lǐng)域的首創(chuàng)。 實(shí)在智能將TARS-RPA-Agent打造成為一個有大腦眼睛和手腳的能夠自主拆解任務(wù)、感知當(dāng)前環(huán)境、執(zhí)行并且反饋和記憶歷史經(jīng)驗的IPA全新模式和超自動化智能體,所依賴的LLM是實(shí)在智能基于通用大模型基座的自研垂直“塔斯(TARS)”大模型——采用以TARS大模型和ISSUT智能屏幕語義理解為基座的技術(shù)框架,底層是包括通用基礎(chǔ)模型和各個垂直行業(yè)基礎(chǔ)模型在內(nèi)的TARS系列大模型和智能屏幕語義理解技術(shù),上層是依托這兩項關(guān)鍵技術(shù)完成全面升級和改造的超自動化產(chǎn)品。在未來計劃中,實(shí)在智能還會持續(xù)推出更多的TARS+X的模型及產(chǎn)品。 能夠在AI?Agent盛行不久便能打造出AI智能體產(chǎn)品,得益于長期的技術(shù)沉淀與經(jīng)驗積累。自推出RPA產(chǎn)品至今天發(fā)布TARS-RPA-Agent,實(shí)在智能的產(chǎn)品體系已經(jīng)歷三次重要迭代:
2019-2021年,實(shí)在第一代專家模式RPA,實(shí)現(xiàn)可視化拖拉拽構(gòu)建數(shù)字員工。
2021-2022,實(shí)在第二代簡易模式IPA,基于首創(chuàng)ISSUT智能屏幕語義理解技術(shù),跳出IDE技術(shù)模式,開啟全球首個點(diǎn)選用模式RPA。
2022-2023,實(shí)在第三代對話模式RPA(ChatRPA),結(jié)合大語言模型基礎(chǔ),實(shí)現(xiàn)超自動化Agent,打造業(yè)界首款計算機(jī)視覺與大語言模型結(jié)合的智能體產(chǎn)品,以全新體驗人機(jī)交互開啟對話式流程創(chuàng)建時代。
事實(shí)證明,只有“邊探索邊創(chuàng)建”的模式,才能讓RPA真正融合LLM并發(fā)揮真正的作用。實(shí)在智能認(rèn)為,RPA將迎來“你說TArs做”的新境界,這也映射了實(shí)在智能在TARS-RPA-Agent的終極目標(biāo)——“你說,PC做”,要真正實(shí)現(xiàn)包括流程創(chuàng)建等各種業(yè)務(wù)處理的“所說及所得”,讓RPA行業(yè)喊了多年的“RPA人人可用”愿景成為現(xiàn)實(shí),也使得“人人擁有一個智能助理”進(jìn)一步成為可能。
率先成為國內(nèi)五大AI智能體之一,TARS-RPA-Agent不僅僅是國內(nèi)廠商在AI?Agent領(lǐng)域初步嘗試的成果,更為超自動化廠商以及To?B領(lǐng)域產(chǎn)品的未來發(fā)展提供了一個方向,對RPA行業(yè)的發(fā)展具有里程碑的意義,也必將成為大語言模型落地的典型AI智能體案例。 在未來,人類與電腦/手機(jī)的協(xié)同方式一定是從人適應(yīng)技術(shù)轉(zhuǎn)變?yōu)榧夹g(shù)適應(yīng)人,產(chǎn)品也將從以系統(tǒng)為中心轉(zhuǎn)變?yōu)橐匀藶橹行?。在這種全新人機(jī)協(xié)同模式下,Agent可以理解我們的需求和習(xí)慣做出調(diào)整,人類也不用花費(fèi)大量時間去學(xué)習(xí)如何操作一個新的應(yīng)用或工具,AI才能變得更加智能化、人性化。