吹爆!北大博士手把手教你大模型微調(diào)技巧,大模型訓(xùn)練流程及原理+微調(diào)容易踩的坑全詳

LLM/LLM在某一垂直領(lǐng)域的 評(píng)價(jià)指標(biāo)體系
1.
finetune在訓(xùn)練過(guò)程中改變了模型的參數(shù),本質(zhì)修改了下游任務(wù)代碼,完成了BP修改網(wǎng)絡(luò)的參數(shù)。而LangChain+LLM并沒(méi)有,因?yàn)楸举|(zhì)是prompt的介入,不存在模型內(nèi)部參數(shù)調(diào)整。
2. ①Freeze:解凍一些層來(lái)訓(xùn)練,其他都層都凍結(jié)。
Lora微調(diào)
??②Lora:技術(shù)原理簡(jiǎn)單,但真有奇效,需要注意rank大小的設(shè)置,是根據(jù)業(yè)務(wù)領(lǐng)域來(lái)的,領(lǐng)域垂直性越強(qiáng),就要設(shè)置的越大,比較有意思的就是數(shù)據(jù),看起來(lái)最沒(méi)技術(shù)含量的事情,大家不愿意做,但其實(shí)是最難的,數(shù)據(jù)收集存在諸多問(wèn)題,數(shù)據(jù)少且封閉,缺乏標(biāo)注,垂直領(lǐng)域往往對(duì)結(jié)果要求很高。
???另外,有一些內(nèi)容(比如商品的售價(jià))經(jīng)常在變換,如何讓模型快速響應(yīng)這些內(nèi)容,訓(xùn)練(微調(diào))一次周期還挺長(zhǎng)的,目前可以采取配知識(shí)庫(kù)的方法(ChatGLM+LangChain+知識(shí)庫(kù))
注意:生成式模型的一系列審核機(jī)制,對(duì)用戶(hù)的輸入數(shù)據(jù)進(jìn)行審核,防止輸入一些有誘導(dǎo)性的問(wèn)題,模型需要對(duì)回答輸出進(jìn)行審核。內(nèi)容風(fēng)控是上線(xiàn)前的重中之重。