通用大模型井噴,為什么還需要法律大模型?

作者/冪律法律部 張麗峰
ChatGPT是由OpenAI在2022年11月30日發(fā)布的對話式通用人工智能工具,甫一問世即成為史上用戶增長速度最快的消費(fèi)級應(yīng)用程序,上線僅五天,就突破了百萬用戶;在推出后短短兩個月的時間內(nèi),月活用戶就已經(jīng)突破了一億。今年2月份以來,國內(nèi)多款大模型產(chǎn)品相繼發(fā)布:MOSS、ChatGLM、文心一言、日日新、通義千問、知海圖AI、天宮3.5、星火……更多的大模型產(chǎn)品也將陸續(xù)面世。
當(dāng)前市面上的大模型產(chǎn)品以“通用大模型”為主,此外也有許多廠商瞄準(zhǔn)垂直領(lǐng)域開發(fā)大模型產(chǎn)品,如自動駕駛領(lǐng)域的雪湖·海若、金融領(lǐng)域的BloombergGPT等,冪律也在緊鑼密鼓地研發(fā)法律領(lǐng)域的大模型產(chǎn)品。那么為什么有了通用大模型,還需要研發(fā)法律大模型呢?本文從法律領(lǐng)域的特殊性出發(fā),向讀者解釋法律大模型的研發(fā)必要性,并探討法律大模型產(chǎn)品研發(fā)過程中面臨的挑戰(zhàn)。
一、有了通用大模型為什么還需要法律大模型?
通用大模型在語言翻譯、文本生成、數(shù)學(xué)計算等領(lǐng)域都有著不俗的表現(xiàn),但從法律從業(yè)者的試用反饋來看,通用大模型對法律問題的回答效果卻并不理想。究其原因,是由于法律要求高度的專業(yè)性和準(zhǔn)確性、法律語言具有特殊性、法律存在文化和地域差異,法律行業(yè)對大模型產(chǎn)品提出了更高的要求,訓(xùn)練法律領(lǐng)域的大模型勢在必行。
1.法律的專業(yè)性和準(zhǔn)確性
大模型通常采用Transformer架構(gòu),在此架構(gòu)下模型被要求根據(jù)前面的信息來預(yù)測后面的內(nèi)容,模型通過計算接下來備選內(nèi)容的概率選擇后續(xù)的輸出。在法律問答任務(wù)中,大模型給出的答案實際上是根據(jù)用戶的提問推算得出,故而它可能生成離題、不夠?qū)I(yè)或不準(zhǔn)確的答案,而法律工作對此類錯誤的容忍度是很低的。
一方面,法律問答通常涉及法律的解釋和適用,法律條文的內(nèi)容是精準(zhǔn)的,需原文引用;基于對法律規(guī)范的準(zhǔn)確理解,才能提供正確的法律指導(dǎo)。另一方面,法律問題的處理常常關(guān)涉人身財產(chǎn)權(quán)益,不準(zhǔn)確的回答容易產(chǎn)生誤導(dǎo),對當(dāng)事人的決策和行為產(chǎn)生重大影響。
普通民眾的法律知識有限,難以鑒別大模型回答中可能存在的問題,如果每一個回答都需要用戶自行驗證,將與大模型在法律領(lǐng)域提供更加便捷法律服務(wù)的初衷相悖。
法律大模型通過高質(zhì)量的法律數(shù)據(jù)庫保證專業(yè)性,并根據(jù)法律領(lǐng)域的特點進(jìn)行針對性的模型訓(xùn)練,同時加入提示詞工程,以此提高法律問答的準(zhǔn)確性,在常見法律問題上法律大模型通常能給出更準(zhǔn)確的回答。


如上圖例是國內(nèi)某通用聊天機(jī)器人和冪律大模型對酒后駕車這一問題的回答。喝了酒開車在法律上區(qū)分為酒駕與醉駕兩種情形,法律規(guī)定包括《道路交通安全法》第九十一條和《刑法》第一百三十三條之一。酒駕和醉駕面臨的處罰包括暫扣駕駛證、吊銷駕駛證、罰款、拘留以及可能承擔(dān)的刑事責(zé)任,根據(jù)情節(jié)不同行為人面臨的具體處罰也會有所不同。
由圖可知,通用聊天機(jī)器人雖然能回答出面臨的處罰種類,但答案比較籠統(tǒng)模糊,且未對酒駕與醉駕兩種情節(jié)作區(qū)分,也未能給出法律依據(jù);而冪律大模型則區(qū)分了酒駕與醉駕兩種情形,針對二者分別列明了具體處罰標(biāo)準(zhǔn),并給出了準(zhǔn)確的法律依據(jù)。
2.法律語言的特殊性
法律語言的精確性、特定性和邏輯性使得它與日常生活語言有明顯區(qū)別。
法律語言要求準(zhǔn)確和專業(yè),需要使用準(zhǔn)確的詞匯及特定的表達(dá)方式來減少歧義。在法律領(lǐng)域,公民與自然人、居所和住所、營利和盈利、批準(zhǔn)與核準(zhǔn)、欺詐和詐騙等相似詞匯的適用范圍有著嚴(yán)格的界定,以保證準(zhǔn)確傳達(dá)法律含義。以居所和住所為例,居所指自然人的居住地點,可以是一時的居住地點也可以是長期的居住地點;而住所則指民事主體進(jìn)行民事活動的中心場所或者主要場所,一般是長期居住、較為固定的居所。
法律語言通常使用專門的術(shù)語,如民法上的無因管理、不當(dāng)?shù)美⑿谭ㄉ系木o急避險等。專門的術(shù)語有助于確保法律條款的一致性和可靠性,并為法律行為和事實提供明確的定義,以便法官、律師和其他法律從業(yè)人員準(zhǔn)確理解和應(yīng)用。
此外,法律語言強(qiáng)調(diào)邏輯性,通常要求特定的語言結(jié)構(gòu)。法律論證往往通過法律規(guī)則、案件事實和法律判斷的司法三段論展開,重視對權(quán)利義務(wù)的分析,結(jié)合法律法規(guī)以及相關(guān)案例來加強(qiáng)論證的合理性和權(quán)威性;法律文件通常采用特定的結(jié)構(gòu)和格式以保證條文清晰、易于解釋和正確理解。
由于法律語言的上述特點,需要有專門的法律數(shù)據(jù)庫,并且訓(xùn)練法律大模型。通過法律文本訓(xùn)練而成的法律大模型才能具備對法律術(shù)語及復(fù)雜語言結(jié)構(gòu)的理解和應(yīng)用能力。
3.法律的文化和地域差異
冪律法律團(tuán)隊選擇了數(shù)百個高頻法律問題,由法律專家整理出答案,之后根據(jù)人工解答對比了ChatGPT和冪律大模型在這些問題上的表現(xiàn)。
以下是ChatGPT和冪律大模型對彩禮問題的回答:


關(guān)于彩禮的返還,法律規(guī)定在雙方未辦理結(jié)婚登記手續(xù)、雙方辦理結(jié)婚登記手續(xù)但確未共同生活、婚前給付并導(dǎo)致給付人生活困難這三種情形下返還彩禮的請求通常會被人民法院支持。
在此法律問題上,ChatGPT沒有對能否請求對方返還彩禮進(jìn)行正面解答,也沒有對彩禮問題從法律角度進(jìn)行分析并給出相關(guān)法律依據(jù);而冪律法律大模型則對此問題進(jìn)行了明確回答,對題目進(jìn)行分析并給出了相關(guān)法律依據(jù)。
最高人民法院關(guān)于適用《中華人民共和國民法典》婚姻家庭編的解釋(一)第五條
當(dāng)事人請求返還按照習(xí)俗給付的彩禮的,如果查明屬于以下情形,人民法院應(yīng)當(dāng)予以支持:
(一)雙方未辦理結(jié)婚登記手續(xù);
(二)雙方辦理結(jié)婚登記手續(xù)但確未共同生活;
(三)婚前給付并導(dǎo)致給付人生活困難。
適用前款第二項、第三項的規(guī)定,應(yīng)當(dāng)以雙方離婚為條件。
ChatGPT通常無法給出具體、直接的法律回答,甚至在一些法律問題上給出“作為AI語言模型,我無法判斷這種情況對你的具體影響……”、“具體情況會因為不同地區(qū)和文化背景差異而有所不同”這樣的答案;同時,ChatGPT在回答法律問題時也較少提供準(zhǔn)確的中國法律依據(jù)。
這種情況可以理解,據(jù)Open AI公布,用于訓(xùn)練ChatGPT的中文語料僅占全部語料的0.09905%,而其中中文法律語料就更少了。此外,國外大模型產(chǎn)品由于所屬法律體系不同、語言翻譯上的誤差等也加劇了ChatGPT對中國法律問題作出準(zhǔn)確回答的困難。
因此,為了向用戶提供更優(yōu)質(zhì)、更高效的智能法律問答服務(wù),不僅需要研發(fā)垂直領(lǐng)域的法律大模型,更需要研發(fā)契合中國法律體系與國情的專業(yè)法律大模型。
二、研發(fā)法律大模型面臨的具體挑戰(zhàn)
我們期待體驗在法律領(lǐng)域具有強(qiáng)勁實力的法律大模型,但是研發(fā)法律大模型面臨著多重挑戰(zhàn),這些挑戰(zhàn)涉及模型訓(xùn)練、法律遵循、數(shù)據(jù)處理等方面。
1.對模型理解和推理能力的更高要求
法律具有高度的抽象性,法律人需要從生活事實中抽象出法律事實,從日常行為中抽象出法律行為,然后通過推理、論證等方式分析不同的事實和行為對應(yīng)的法律后果及應(yīng)對方式。
然而,日常生活中的行為是紛繁復(fù)雜的,一種法律行為在生活中可能有多種表現(xiàn)形式。例如,刑法上詐騙指以非法占有為目的,使用欺騙方法,騙取數(shù)額較大的公私財物的行為。而在日常生活中,詐騙可能以刷單、殺豬盤、傳銷、兼職、微商代理、裸聊等多種形式出現(xiàn)。以“殺豬盤”為例,這是一種新型網(wǎng)絡(luò)電信詐騙方式,當(dāng)用戶提問涉及遭遇“殺豬盤”時,模型需要根據(jù)“殺豬盤”及其他相關(guān)信息推理出用戶實際是遭遇了詐騙。之后,模型應(yīng)根據(jù)關(guān)于詐騙的法律規(guī)定以及用戶的具體情況進(jìn)行法律推理與論證,最終給出處理結(jié)論并提供相關(guān)的法律依據(jù)。
這對法律大模型的語義理解和推理能力提出了更高的要求。推理能力是目前各種大模型著重提升的能力之一,而如何提高法律大模型在法律領(lǐng)域的理解和推理能力則是研發(fā)者必須直面的重要難題。
2.法律的時間效力對訓(xùn)練數(shù)據(jù)的影響
法律法規(guī)是解決各種法律問題的基礎(chǔ)遵循,但法律是在不斷變動的,社會需求、法律改革、司法實踐的變化都可能會導(dǎo)致法律的新增、修正與廢止。

上圖是截至2023年3月13日十四屆全國人大一次會議閉幕之時,我國現(xiàn)行有效部分法律目錄。由圖可知,諸如《商標(biāo)法》、《專利法》、《公司法》等法律已經(jīng)歷了多輪修正,而《民法典》的生效更是導(dǎo)致《民法總則》、《合同法》、《婚姻法》等九部法律及相關(guān)立法、司法解釋同時廢止。
“立法者三句修改的話,全部藏書就會變成廢紙。”從訓(xùn)練法律大模型的角度而言,法律的變動不僅會對作為訓(xùn)練語料的法律條文范圍及版本產(chǎn)生影響,更深刻影響著作為訓(xùn)練語料重要組成部分的法學(xué)書籍、司法解釋、法律文書以及龐大法律問答數(shù)據(jù)的準(zhǔn)確度與適用性。
以法律問答數(shù)據(jù)為例,法律的變動會導(dǎo)致數(shù)據(jù)中存在法律關(guān)系變化、法律依據(jù)失效、條文序號與最新版法律無法對應(yīng)等問題。
為了提高模型所需數(shù)據(jù)的準(zhǔn)確性,研發(fā)團(tuán)隊?wèi)?yīng)當(dāng)密切關(guān)注法律法規(guī)的變動,及時更新語料,并將法律變動對模型生成法律回答的影響降到最低。
3.數(shù)據(jù)標(biāo)注與模型訓(xùn)練問題
數(shù)據(jù)質(zhì)量直接影響到模型的準(zhǔn)確性與可靠性。由于法律數(shù)據(jù)具有復(fù)雜性和專業(yè)性,因此法律大模型所需的訓(xùn)練數(shù)據(jù)必須由專業(yè)的法律人員進(jìn)行標(biāo)注。為了保證標(biāo)注數(shù)據(jù)的質(zhì)量,需要專業(yè)、準(zhǔn)確的知識架構(gòu),并遵循明確的標(biāo)準(zhǔn)及指南以減少標(biāo)注錯誤和偏差的發(fā)生。
標(biāo)注完成后,研發(fā)者應(yīng)考慮進(jìn)行多個標(biāo)注者之間的相互審核、復(fù)審和質(zhì)量評估,進(jìn)而發(fā)現(xiàn)和糾正錯誤,以提高標(biāo)注數(shù)據(jù)的準(zhǔn)確性和一致性。
此外,由于法律的復(fù)雜性和專業(yè)性,法律大模型的訓(xùn)練將需要更高的時間和計算成本,并需要通過持續(xù)的迭代優(yōu)化以提升準(zhǔn)確性。
法律大模型的研發(fā)需要專業(yè)基礎(chǔ)扎實的法律專業(yè)人士和實力強(qiáng)勁的研發(fā)人員通力配合,這是推動法律大模型研發(fā)的關(guān)鍵因素。二者應(yīng)共同致力于解決研發(fā)過程中的挑戰(zhàn)和問題,相互交流學(xué)習(xí),使法律大模型能夠不斷進(jìn)步和發(fā)展。
4.非典型問題的處理
一些非典型問題,可能是法律尚未覆蓋的新情況,或涉及到復(fù)雜的背景信息、具有行業(yè)特殊性、存在區(qū)域差異,模型數(shù)據(jù)難以涵蓋此類特殊情形。例如在引起廣泛討論的“江歌案”中,在危急情形下被救助者是否對救助者負(fù)擔(dān)安全保障義務(wù)這一問題曾被公眾廣泛討論,實務(wù)領(lǐng)域、學(xué)術(shù)界對此問題尚且眾說紛紜,法律大模型作為新事物能夠給出權(quán)威結(jié)論的可能更是渺茫。
有鑒于此,對于非典型問題法律大模型當(dāng)前難以提供非常具體、具有針對性的法律意見,此時可以提供一些初步的指導(dǎo)和建議并建議用戶咨詢專業(yè)律師。
未來,隨著數(shù)據(jù)的積累,通過嘗試新的技術(shù)方法,法律大模型有望提高對各類問題的分析處理能力,為用戶提供更智能、高效的法律建議和支持,推動智能法律服務(wù)的進(jìn)一步發(fā)展和優(yōu)化。我們對法律大模型的潛能充滿期待。
ChatGPT等通用大模型產(chǎn)品已經(jīng)讓我們看到大模型在所涉領(lǐng)域全面性上的驚艷表現(xiàn),而研發(fā)法律大模型,則更讓我們期待大模型在細(xì)分垂直領(lǐng)域的無限潛力。從2017年就深耕在“AI+法律”領(lǐng)域的冪律智能,聯(lián)合國內(nèi)新一代認(rèn)知智能通用模型廠商智譜AI,發(fā)布基于中文千億大模型的「法律ChatGPT」,敬請期待!