昇騰AI與“紫東.太初”賦能法律服務(wù),多模態(tài)大模型邁向“多專多能”

日前舉辦的華為全聯(lián)接大會(huì)2022上,中國(guó)科學(xué)院自動(dòng)化研究所所長(zhǎng)徐波在演講中提出了一個(gè)新觀點(diǎn):“多模態(tài)是人工智能邁向通用化的關(guān)鍵一步?!?/p>
學(xué)術(shù)界并不缺少大模型的“搖旗者”,特別是風(fēng)頭正勁多模態(tài)大模型,不少科學(xué)家曾在公開場(chǎng)合背書。不過以往談及多模態(tài)的話題時(shí),訓(xùn)練難度、算力成本常常是繞不過的痛點(diǎn)。倘若大模型注定只有少數(shù)企業(yè)擁有的“壟斷資源”,哪怕一次次刷新人工智能的測(cè)試成績(jī),與“通用化”始終有著不小的距離。
為何徐波所長(zhǎng)對(duì)多模態(tài)大模型的前景如此自信?坊間已經(jīng)出現(xiàn)了學(xué)術(shù)維度的回答,或許還有一個(gè)新的視角,即產(chǎn)業(yè)應(yīng)用側(cè)的摸索與實(shí)踐,比如40年前就嘗試使用“專家系統(tǒng)”輔助判決的法律服務(wù),正在多模態(tài)大模型的賦能下煥發(fā)出新的生機(jī)。
01 法律服務(wù)的雙向痛點(diǎn)
其實(shí)很多人對(duì)“人工智能”已經(jīng)不再陌生,原因并非是學(xué)術(shù)界或資本層面的沸騰,而是在產(chǎn)業(yè)深處的應(yīng)用落地。
翻開幾家人工智能企業(yè)的商業(yè)計(jì)劃書,應(yīng)用案例多半會(huì)占據(jù)相當(dāng)長(zhǎng)的篇幅。生產(chǎn)線上的質(zhì)檢流程、工程管理中的巡檢巡查、市場(chǎng)需求側(cè)的數(shù)據(jù)分析,早已被人工智能滲透、改造,在效率上遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)生產(chǎn)模式。
但這些機(jī)器“取代”人的場(chǎng)景,大多是不需要太多“思考”的重復(fù)性勞動(dòng),按照既定的算法規(guī)則就可以運(yùn)行??煞煞?wù)偏偏是非標(biāo)準(zhǔn)化的,不同案件的案由、案情、涉及的法律條文各不相同,而且結(jié)果還有著不可預(yù)見性,尤其考驗(yàn)從業(yè)者的經(jīng)驗(yàn)法則、邏輯思維以及對(duì)情感的理解和處理能力。

因?yàn)橛袆e于其他場(chǎng)景的行業(yè)特征,多年來普通人難以獲取優(yōu)質(zhì)的法律服務(wù)。
站在法律求助者的立場(chǎng)上,尋求法律服務(wù)的渠道非常單一,甚至一些人根本不知道去哪里尋求法律服務(wù)。即使找到了律師求助,由于自身缺少對(duì)法律服務(wù)方能力的判斷標(biāo)準(zhǔn)、缺少衡量法律服務(wù)費(fèi)用的客觀標(biāo)準(zhǔn),整個(gè)過程就像是在“黑箱”中一樣,導(dǎo)致很多人在“踩坑”后不愿意再去找律師解決問題。
而法律服務(wù)者也有自己的苦衷,市場(chǎng)上缺少全面的案源渠道和高效的篩選機(jī)制,難以精準(zhǔn)匹配到目標(biāo)客戶,一旦雙方在認(rèn)知上的差異太大,不僅會(huì)產(chǎn)生過高的溝通成本,還很難讓求助者對(duì)服務(wù)感到滿意。一些基層法律服務(wù)者不得不花費(fèi)大量時(shí)間重復(fù)低價(jià)值的瑣碎工作,無形中推高了法律服務(wù)的機(jī)會(huì)成本。
為了解決法律服務(wù)中的“雙向痛點(diǎn)”,行業(yè)內(nèi)外可謂各出機(jī)杼。
早在上世紀(jì)80年代就有人將“專家系統(tǒng)”應(yīng)用在了法律服務(wù)中,開發(fā)出了運(yùn)用嚴(yán)格責(zé)任、相對(duì)疏忽和損害賠償?shù)饶P蛠碛?jì)算責(zé)任案件賠償標(biāo)準(zhǔn)的法律判決輔助系統(tǒng)。等到新一輪人工智能浪潮的崛起,法律服務(wù)也是最早被賦能的場(chǎng)景之一,紛紛利用算法進(jìn)行法規(guī)和判例的輔助檢索,試圖將法律工作者從浩如煙海的案卷中解放出來,進(jìn)而能夠?qū)⒕性诟訌?fù)雜的法律推理工作中。
其中不乏一些“網(wǎng)紅”級(jí)的案例。國(guó)內(nèi)也出現(xiàn)了形形色色的法律機(jī)器人產(chǎn)品……
人工智能介入法律服務(wù)可以說是持續(xù)了幾十年的夙愿,可惜在以往的案例中,人工智能的輔助價(jià)值非常有限,并未能消除已有的種種痛點(diǎn)。
02 人工智能正由淺入深
所有事物的演變都有一個(gè)由淺入深的過程,人工智能對(duì)法律服務(wù)的影響也是如此,注定是從邊緣不斷向法律服務(wù)的內(nèi)核滲透。
把時(shí)間撥回到2021年7月份,基于昇騰AI的全球首個(gè)圖文音三模態(tài)預(yù)訓(xùn)練模型“紫東.太初”正式發(fā)布,在武漢人工智能計(jì)算中心的算力支持下,首次實(shí)現(xiàn)了跨模態(tài)理解與跨模態(tài)生成能力。而“紫東.太初”多模態(tài)大模型的主導(dǎo)者,正是徐波擔(dān)任所長(zhǎng)的中國(guó)科學(xué)院自動(dòng)化研究所。
5個(gè)月后的2021東湖國(guó)際人工智能高峰論壇上,中國(guó)科學(xué)院自動(dòng)化研究所牽頭的“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體”成立,試圖基于多模態(tài)科研成果來進(jìn)行應(yīng)用創(chuàng)新孵化及產(chǎn)業(yè)聚合,解決一些懸而未決的長(zhǎng)尾問題,陸續(xù)孵化出了多個(gè)行業(yè)解決方案,其中就包括武漢百智誠(chéng)遠(yuǎn)科技有限公司研發(fā)的AI法律服務(wù)產(chǎn)品“法魔方”。
基于紫東.太初三模態(tài)大模型,百智誠(chéng)遠(yuǎn)利用昇思MindSpore AI框架進(jìn)行了AI法律服務(wù)的深入探索。
首先是數(shù)據(jù)的挖掘,匯聚了1.46億條司法案例、1215萬條法律法規(guī)、600億條法律新聞和1億則企業(yè)法律招投標(biāo)信息,這些海量信息里不僅有結(jié)構(gòu)化的數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)。由于“紫東.太初”多模態(tài)大模型采用了多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)方式,能夠從大規(guī)模的無監(jiān)督數(shù)據(jù)中挖掘隱含的監(jiān)督信息進(jìn)行訓(xùn)練,證明了多模態(tài)大模型的無限潛力。

以深度語義理解為例,輸入“周三上午,李XX在萬達(dá)停車場(chǎng),偷了一輛價(jià)值5000元的電動(dòng)自行車”,“紫東.太初”可以自動(dòng)識(shí)別出作案時(shí)間、盜竊者、作案地點(diǎn)、盜竊金額、盜竊物品等有效信息,并對(duì)事件性質(zhì)、危害結(jié)果、相關(guān)司法案例等進(jìn)行聯(lián)想,形成了綜合性的知識(shí)結(jié)構(gòu)。
然后是場(chǎng)景的匹配,通過信息感知與知識(shí)推理、行業(yè)全景知識(shí)與內(nèi)在聯(lián)系產(chǎn)生應(yīng)用知識(shí)、行業(yè)專家規(guī)則機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)等訓(xùn)練,百智誠(chéng)遠(yuǎn)的“法魔方”沉淀出了規(guī)律發(fā)現(xiàn)、輔助決策等能力,能夠?yàn)槁蓭熉伤?、法院法官、咨詢機(jī)構(gòu)、企事業(yè)單位等不同場(chǎng)景提供法律數(shù)據(jù)、媒體資訊和咨詢等服務(wù)。
比如面向法院法官的產(chǎn)品體系中,包含了類案檢索、風(fēng)險(xiǎn)評(píng)估、法律法規(guī)查詢、庭審大綱生成、電子卷宗整理、裁判文書生成、量刑參考等能力,人工智能不單單是替代機(jī)械性的重復(fù)勞動(dòng),逐漸延伸到了輔助決策、自主分析等深度應(yīng)用,已經(jīng)在某種程度上扮演了法律服務(wù)“智能助手”的角色。
其實(shí)在2017年前后,最高人民法院與國(guó)務(wù)院就曾出臺(tái)文件,提出建設(shè)智慧法院的需求,促進(jìn)人工智能在證據(jù)收集、案例分析、法律文件閱讀與分析中的應(yīng)用,實(shí)現(xiàn)法院審判體系和審判能力智能化。
多模態(tài)大模型的落地應(yīng)用,不但填補(bǔ)了法律服務(wù)行業(yè)遺留多年的“坑”,也讓外界深刻認(rèn)識(shí)到了多模態(tài)的價(jià)值。
03 多模態(tài)大模型的勝利
需要回答的另一個(gè)問題在于:為何行業(yè)中存在多年的痛點(diǎn),在多模態(tài)大模型的幫助下,似乎可以很輕松地解決?
先來復(fù)盤下以往算法模型的局限性:一是模型的功能單一,一個(gè)模型只能解決一個(gè)任務(wù);二是模型的訓(xùn)練依賴于大量的樣本,如果缺乏足夠的樣本支撐,訓(xùn)練也就無從談起;三是人工智能模型的泛化能力差,不能應(yīng)用于廣泛的應(yīng)用場(chǎng)景。
倘若不能擺脫“一專一能”的短板,人工智能的通用化很難實(shí)現(xiàn),大模型潛力的爆發(fā)也就無從談起。耗費(fèi)海量的人力、物力去“煉”大模型,用于解決法律服務(wù)代表的長(zhǎng)尾問題,無異于天方夜譚。
“紫東.太初”所瞄準(zhǔn)的,正是常規(guī)大模型的局限性:通過將圖像、文本、語音等不同模態(tài)數(shù)據(jù)實(shí)現(xiàn)跨模態(tài)的統(tǒng)一表征和學(xué)習(xí),完成了從“一專一能”到“多專多能”的跨越,不僅可以實(shí)現(xiàn)跨模態(tài)理解,還能實(shí)現(xiàn)跨模態(tài)生成,做到了理解和生成兩個(gè)最重要的認(rèn)知能力的平衡,并首次實(shí)現(xiàn)了以圖生音、以音來生圖的功能。

有了多模態(tài)大模型還不夠,想要讓千行百業(yè)里的企業(yè)可以用大模型來解決問題,還需要降低大模型的應(yīng)用門檻。為了打通大模型產(chǎn)業(yè)應(yīng)用的“最后一公里”,兩個(gè)組織在其中扮演了不可或缺的角色。
一個(gè)是前面提到的“多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體”,發(fā)布了“紫東.太初”大模型開放服務(wù)平臺(tái),支持模型的小樣本訓(xùn)練和一鍵微調(diào),并開源了目前業(yè)界最大的中文多模態(tài)訓(xùn)練數(shù)據(jù)集“紫東.太素”。用戶先在大規(guī)模寬泛無標(biāo)注數(shù)據(jù)上進(jìn)行基礎(chǔ)訓(xùn)練,再結(jié)合行業(yè)知識(shí)通過小樣本學(xué)習(xí)微調(diào),就可以滿足多種應(yīng)用任務(wù)的需要。
目前已經(jīng)有40多家企業(yè)在平臺(tái)上孵化了近60個(gè)解決方案,涵蓋智能制造、智慧城市、智慧文旅等數(shù)十個(gè)行業(yè)。
另一個(gè)是“紫東.太初”等大模型的“幕后英雄”昇騰AI,參與構(gòu)建了從規(guī)劃、開發(fā)到產(chǎn)業(yè)化的大模型全流程使能體系。
典型的例子就是昇騰AI推出的大模型開發(fā)使能平臺(tái),簡(jiǎn)化大模型開發(fā)到部署的全流程:在大模型的開發(fā)上,提供了高性能Transformer API封裝;在場(chǎng)景化適配上提供了微調(diào)套件,目前已經(jīng)應(yīng)用于“紫東.太初”大模型開放服務(wù)平臺(tái);在推理部署階段,通過大模型部署套件提供自動(dòng)的剪枝、蒸餾、量化等系列工具,可以在精度基本無損的情況下,實(shí)現(xiàn)模型十倍級(jí)壓縮比,以支持模型的輕量化部署。
做一個(gè)總結(jié)的話,“紫東.太初”多模態(tài)大模型在產(chǎn)業(yè)應(yīng)用中的“勝利”,所證明的不只是人工智能在法律服務(wù)中的潛力,也在潛移默化地改變外界對(duì)于大模型的態(tài)度,大模型絕不是什么軍備競(jìng)賽,而是人工智能的研發(fā)范式和產(chǎn)業(yè)范式。
至少就目前來看,國(guó)內(nèi)對(duì)于大模型的態(tài)度正在趨于理性:中國(guó)科學(xué)技術(shù)信息研究所正在協(xié)同產(chǎn)業(yè)界共同規(guī)劃中國(guó)人工智能大模型地圖,將統(tǒng)籌中國(guó)大模型有序發(fā)展;繼智能遙感、多模態(tài)、智能流體力學(xué)等產(chǎn)業(yè)聯(lián)合體后,電磁智能、智慧育種等產(chǎn)業(yè)聯(lián)合體也在規(guī)劃中,大模型落地的新方法、新模式逐漸有了雛形......
04 寫在最后
1989年上線的科幻電影《回到未來2》曾預(yù)言:到了2015年,法律系統(tǒng)臻于完美,律師作為一種職業(yè)已經(jīng)消失。
盡管電影中的預(yù)言“落空”了,人工智能對(duì)于法律服務(wù)的改變卻是不爭(zhēng)的事實(shí)。百智誠(chéng)遠(yuǎn)代表的企業(yè)正在利用AI改寫法律檢索、合同審核、法律咨詢、案件預(yù)測(cè)、訴訟策略選擇等場(chǎng)景的運(yùn)作邏輯,不斷提升法律服務(wù)行業(yè)的智能化水平。
也許多年后再來回顧法律行業(yè)的演變,AI法律服務(wù)所承載的意義還會(huì)多一個(gè)維度,即多模態(tài)大模型的崛起。