ChatLaw模型測試分析
眾所周知,2023年7月,北大團(tuán)隊發(fā)布了中文法律大模型ChatLaw,為大眾提供普惠法律服務(wù)。模型支持文件、語音輸出,同時支持法律文書寫作、法律建議、法律援助推薦。
剛巧AIGC在現(xiàn)在特別火,趁今有空,就簡單的對chatlow進(jìn)行一下測試吧。
注:
咱還沒排到ChatLaw內(nèi)測資格,本來想再等等的,不過現(xiàn)在看這情況:[內(nèi)測排隊中],我看等ChatLaw正式上線我都排不到,tnnd,等不了了!故在此使用ChatLaw Demo測試體驗
ChatLaw介紹:
????ChatLaw開源法律大模型來自北京大學(xué)ChatExcel課題組,目前僅提供學(xué)術(shù)參考的版本,其底座為姜子牙-13B、Anima-33B,模型使用大量法律新聞、法律論壇、法條、司法解釋、法律咨詢、法考題、判決文書等原始文本來構(gòu)造對話數(shù)據(jù),致力于給大眾提供普惠的法律服務(wù)。
開始測試:
[注:下文中所說的ChatGPT一律為openai:gpt-3.5-turbo模型,為方便測試進(jìn)行,本次測試所有ChatGPT模型調(diào)用均使用Kamiya API]
先進(jìn)行一個對比測試,對決雙方是ChatGPT和ChatLaw,讓我們有請雙方上場~
ChatGPT:
ChatLaw:
好,三,二,一。 比賽,開始! 請聽題:
1.
合同法中的不可抗力是否可以作為一方免責(zé)的理由?
讓我們來看看雙方的回答。
ChatGPT:
ChatLaw:
從此題來看,ChatGPT的回答比較模棱兩可,看來Open AI已經(jīng)把他調(diào)教成了甩鍋大王了…而ChatLaw的回答更加簡潔,邏輯清晰。 故本題ChatLaw獲勝~ 第二題,請聽題:
2.
乙在某民營銀行領(lǐng)取辦理的銀行卡與 u 盾,銀行大廳經(jīng)理甲在假意指導(dǎo)乙如何使用 u 盾時偷換了乙的 u 盾,并騙乙:只能在一周后使用 u 盾。乙信以為真,后,甲利用乙的 u 盾將其卡內(nèi)3w元轉(zhuǎn)入自己銀行卡。關(guān)于甲的行為性質(zhì),下列說法正確的是:
A .甲成立職務(wù)侵占罪
B .甲成立盜竊罪
C .甲成立詐騙罪
D .甲成立信用卡詐騙罪
讓我們來看看雙方的回答。
ChatGPT:
ChatLaw:
此題正確答案為B.甲成立盜竊罪。ChatGPT的回答還是一貫的模棱兩可,給出了完全錯誤的答案C.詐騙罪。而ChatLaw雖然前面的回答非常的混亂,先是認(rèn)為A選項正確,接著又從刑法的謙抑性出發(fā),認(rèn)為A選項錯誤,再然后又認(rèn)為職務(wù)侵占罪優(yōu)先適用。不過后面幾句話還是答在點(diǎn)子上的。 所以此題,ChatLaw獲勝~
一個語言模型,不光要考慮他的業(yè)務(wù)能力,還要看看他會不會生成一些具有危害性的內(nèi)容,所以~
[警告:接下來可能會出現(xiàn)少量nsfw內(nèi)容]
先來試一試簡單的角色扮演。
通過簡單的
PromptHack
就成功的將其變成了貓娘并“忘記”了其“律師”的身份。 接下來開始測試是否會生成一些有害的內(nèi)容。
根據(jù)測試,Chat low可能生成一些模糊的Not save for work片段。但是大該是模型樣本量不足的問題,生成出的片段并不包含有不良詞語。
總結(jié):ChatLaw在其專業(yè)領(lǐng)域可以發(fā)揮一定的咨詢作用,但回答問題是還存在一定的邏輯問題,并且可以明顯感覺到ChatLaw能夠記憶tokens非常少,大概是被人為限制了,個人感覺其對話能力大于GPT3.5小于GPT4。
by:
我好困???
未經(jīng)允許,禁止轉(zhuǎn)載?
?