你未來的機器人助理,首個大模型Agent產(chǎn)品出場
以AIGC為代表的AI技術(shù),正在加速拓展RPA數(shù)字員工的應(yīng)用邊界。
近年來,隨著技術(shù)的不斷演進,國家戰(zhàn)略的強力推動,以及傳統(tǒng)行業(yè)數(shù)字化進程的加速,數(shù)字化轉(zhuǎn)型需求增多,產(chǎn)業(yè)數(shù)字化市場正迅速進入成長期。
最近,有個神秘的機器人助手,引爆科技領(lǐng)域,也為各行各業(yè)數(shù)字轉(zhuǎn)型帶來了嶄新的發(fā)展機遇。
這個神秘的機器人助手,能夠讓我們的辦公流程如同行云流水一般,只要動動嘴,它就是我們?nèi)轿坏膫€人助手,無論是業(yè)務(wù)上的“給銷售金額排序”、考勤方面的“我要在釘釘請個假”,還是生活方面的“我想要買臺電腦幫我推薦一下”,等各方面的需求,這個神秘的機器人助手都能高效準確滿足。
只需要動動嘴,PC就能理解我們的意圖
它就是能夠「聽得懂,想明白,看得見,動起來」的數(shù)字助理,即實在智能發(fā)布的業(yè)內(nèi)首款基于大模型的Agent產(chǎn)品TARS-RPA-Agent,也叫ChatRPA。
正如開頭所說,我們只需要動動嘴,PC就能理解我們的意圖,還能操作所有桌面軟件,成為我們?nèi)轿坏闹?。如此智能的機器人助理,流程的實現(xiàn)也有著層層的難關(guān)需要克服。
例如:當你要求Agent產(chǎn)品幫自己請假時,大模型雖然能做到「理解人類意圖」,但要操作像釘釘這種沒有可解析的網(wǎng)頁源代碼,或可調(diào)用的API接口的應(yīng)用時,還需要另尋他法。
而RPA本身就是一種通過軟件機器人來模擬和執(zhí)行人類在業(yè)務(wù)流程中的操作,實現(xiàn)自動化處理重復(fù)性、規(guī)范性任務(wù)的技術(shù)。因此,這個問題解決后隨之而來的問題又是:傳統(tǒng)的RPA由于不能對軟件頁面進行精準識別。
計算機視覺CV大模型前來賦能,使得讓RPA在執(zhí)行任務(wù)時「看見」操作頁面,秒懂屏幕畫面。此外,在任務(wù)的拆解、感知當前環(huán)境、執(zhí)行并且反饋、記憶歷史經(jīng)驗上,這個TARS-RPA-Agent數(shù)字助理也能通過把CV大模型(ISSUT)、LLM(TARS大模型),以及RPA整合在一起,并通過不同的技術(shù)、設(shè)計和方法解決了上述難點。

在TARS-RPA-Agent的加持下,對于請假這種基本操作,你只需要在對話框中,輸入「使用釘釘幫我請一個今天的假」即可。接下來,TARS-RPA-Agent將這個描述的請求拆解為2個步驟。第一步:打開釘釘;第二步:登錄釘釘發(fā)送請假審批。因為具有“感知世界的眼睛”,TARS-RPA-Agent可以“秒懂”屏幕畫面,第一時間完成解析,并在每個計劃中,都包含了詳細的執(zhí)行步驟。
對于那些沒有編程能力的人來說,無疑是釋放了生產(chǎn)效能。要知道,只要動嘴提需求,助理能夠完美理解意圖并落地實施,是人類都會出錯的事情,而機器人助理不會。TARS-RPA-Agent打造超級自動化和智能化的流程創(chuàng)新,令數(shù)字員工的降本增效作用進一步凸顯,將實現(xiàn)人類意圖的超越,成為駕馭桌面的終極力量。