律師也要職業(yè)危機(jī)?ChatLaw幫助普通人擁有自己的法律顧問
ChatLaw法律大模型近期出圈,發(fā)布上線當(dāng)日即登頂知乎熱搜榜第一,在Github已有近3k的star,被網(wǎng)友戲稱之為大型模型中的“羅翔老師”。

ChatLaw法律大模型介紹
ChatLaw開源法律大模型來自北京大學(xué)ChatExcel課題組,目前僅提供學(xué)術(shù)參考的版本,其底座為姜子牙-13B、Anima-33B,模型使用大量法律新聞、法律論壇、法條、司法解釋、法律咨詢、法考題、判決文書等原始文本來構(gòu)造對話數(shù)據(jù),致力于給大眾提供普惠的法律服務(wù)。

目前ChatLaw系列有三個(gè)版本:
- ChatLaw-13B:這是基于姜子牙Ziya-LLaMA-13B-v1(一個(gè)基于LLaMA 13B針對中文優(yōu)化的微調(diào)的版本 huggingface.co/IDEA-CCNL/Ziya…)訓(xùn)練,這個(gè)版本中文支持很好,但是受模型參數(shù)大小的限制,邏輯能力相對較弱。
- ChatLaw-33B:這是基于Anima(一個(gè)開源的基于QLoRA的33B中文大語言模型)訓(xùn)練的版本,邏輯推理能力比較強(qiáng),但是由于Anima中文語料不足,問答時(shí)經(jīng)常會(huì)出現(xiàn)英文數(shù)據(jù)。
- ChatLaw-Text2Vec:使用了93萬條判決案例做成的向量數(shù)據(jù)集,基于BERT訓(xùn)練的相似度匹配模型,可以根據(jù)用戶提問的內(nèi)容檢索到最相關(guān)的法律條文。
模型架構(gòu):
總體架構(gòu)需要涉及到三個(gè)模型,Keyword LLM,Law LLM(Embedding Model),ChatLaw LLM。
- Keyword LLM:用于將用戶口語化的訴求轉(zhuǎn)化為法律行業(yè)關(guān)鍵詞,并用于檢索知識(shí)庫中的法律知識(shí),作者專門加了這個(gè)步驟,改善因純向量檢索得到的知識(shí)效果可能不太好的問題。
- Law LLM:是作者專門訓(xùn)練的法律領(lǐng)域的BERT embedding模型,用于直接根據(jù)用戶口語化表達(dá)檢索相關(guān)法律知識(shí),這個(gè)和關(guān)鍵詞檢索是結(jié)合使用。
- ChatLaw LLM:是最終的融合大模型,可以對檢索出來的結(jié)果進(jìn)行分析,提取關(guān)鍵內(nèi)容,過濾不相關(guān)內(nèi)容,最終生成相關(guān)回復(fù)。

訓(xùn)練數(shù)據(jù):
訓(xùn)練數(shù)據(jù)主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經(jīng)過清洗、數(shù)據(jù)增強(qiáng)等來構(gòu)造對話數(shù)據(jù)。
ChatLaw Demo測試體驗(yàn)
ChatLaw 的學(xué)術(shù) Demo 版本目前可以試用,遺憾的是沒有接入法律咨詢功能,只提供了簡單的對話咨詢服務(wù)。這里嘗試問了幾個(gè)問題,來測試ChatLaw與ChatGPT的對比效果。
問題一:在中國,音樂作品有哪些著作權(quán)權(quán)利?
ChatLaw

ChatGPT

問題二:另一半婚前貸款買的房子,婚后房子漲價(jià)了,如果離婚我有份額嗎?
ChatLaw

ChatGPT

問題三:提出執(zhí)行異議被駁回,但不提出執(zhí)行異議之訴,而是另行提出所有權(quán)確認(rèn)之訴,所有權(quán)確認(rèn)之訴的審理能否阻卻拍賣的執(zhí)行程序?
ChatLaw

ChatGPT

通過對上述對比結(jié)果,我們發(fā)現(xiàn)相同問題下ChatLaw的回答更加專業(yè),極大的解決了GPT的幻覺問題,同時(shí)得出以下觀察結(jié)果:
- 引入與法律相關(guān)的問答和法規(guī)條文的數(shù)據(jù),可以在一定程度上提高模型在問答上的表現(xiàn)。
- 加入特定類型任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,模型在該類任務(wù)上的表現(xiàn)會(huì)明顯提升。例如,ChatLaw 模型優(yōu)于 ChatGPT 的原因是文中使用了大量的國內(nèi)法律訓(xùn)練數(shù)據(jù)。