Lora模型測試 測試工作流 - 0.2
更新日志
2023年8月13日前:0.1版本
總結之前的測試流程,進行歸納總結。
2023年8月14日:0.2版本
提示詞測試將會提取lora模型訓練中出現(xiàn)頻率更多的詞作為提示詞,而不僅只是用官方提供的詞。
增加判斷標準:
1.畫風lora在極低tag情況下如果畫面依然復雜,且多次生成時有固定元素,可能模型打標有問題。
2.人物lora在良好訓練環(huán)境下,是需要對服裝進行詳細描述才能進行生成的。這種人物lora更可控,且可以對人物特征進行修改。
增加測試環(huán)節(jié):
低tag畫風測試:測試lora在極低tag情況下的畫面生成效果。
人物lora區(qū)別測試:測試人物lora在“無觸發(fā)詞”,“1girl”,“詳細描述的觸發(fā)詞”,“修改特征”這四類不同觸發(fā)詞情況下的生成表現(xiàn)。
修改測試素材:
增加人物lora測試素材,在測試畫風時,對比測試畫風在適配低提示詞的lora與適配復雜提示詞的lora的表現(xiàn)。
刪除測試項:插件測試
插件幾乎無所不能,如果模型需要依靠插件才能實現(xiàn)效果,那么針對模型的測試也就失去了意義。
概述
之前也做過很多模型測試,基本都是從應用層面出發(fā)對模型效果的一種固定流程的測試模式。最近整理的差不多了也是時候發(fā)布一個版本出來了。未來做測試也就是發(fā)發(fā)圖了,每次整理配方真的心累,寫個簡評發(fā)布起來也簡單很多。
另外就是之前的測試一直都有問題,其中最容易解決的就是流程不固定,沒辦法對照參考來判斷模型質量,寫這個文檔也是把流程逐漸固定下來,產(chǎn)出的數(shù)據(jù)價值也更高一些。
交流群
微信群:

QQ群:697080799
下載鏈接
測試中使用的大模型:
鏈接:https://pan.baidu.com/s/1O8yC2B9pQwIg5b_r1ySdMw?pwd=w13k
提取碼:w13k
測試中使用的lora模型:
鏈接:https://pan.baidu.com/s/1XO6Kl6r5nEyDhiCkJrnJ5w?pwd=tsqt
提取碼:tsqt
判斷標準
本測試不判斷模型好壞,僅測試模型適用范圍。
主要目的為展示測試數(shù)據(jù),簡評中的判斷均包含強烈個人審美與使用偏好,具體使用方式應當以測試數(shù)據(jù)為準自行判斷。
判斷依據(jù)
使用體驗:使用過程中的感受,是否易用,是否滿足簡單需求。
泛用性:是否兼容各種畫風,是否能與其他畫風進行融合。
可控性:是否能穩(wěn)定的滿足自身職能,并且在任何環(huán)境下生效。
可塑性:是否在滿足自身只能的情況下,做一些小幅度修改。
**:是不是夠色,符合我口味。
基本判斷依據(jù)
不同需求人群對lora的好壞態(tài)度也不同,判斷依據(jù)因人而異。這里的基本判斷依據(jù)將會粗略分為兩套判斷標準。
第一套判斷標準是“本職工作”,也就是最基礎的模型素質。主要考量的是模型質量,低tag情況下表現(xiàn),還原度等等。這套判斷標準主要針對單一功能的模型,比如單純對某個人物的還原,單純生成某種場景。故而不考慮其泛用性,易用性以及tag可控性。
第二套判斷標準則是模型的“想象空間”:是否兼容畫風,是否具備可塑性,是否能發(fā)揮一定程度的商業(yè)價值。這套標準會更刁難模型,做它“本職”以外的事情。
在簡評中將會以此為基本判斷依據(jù),用不同期望對模型進行測試,故而即便進行評分,也不建議進行橫向對比,主要圖一樂。具體使用方式應當以測試數(shù)據(jù)為準自行判斷。
流程解釋
考慮到測試目標的不同,流程將會分為固定流程與非固定流程兩個板塊。固定流程為同用于所有模型的固定測試環(huán)節(jié),包括:大模型測試,lora兼容性測試,低tag生效性測試。非固定流程為按照模型信息選擇性的測試環(huán)節(jié),包括:觸發(fā)詞效果測試,圖生圖測試等,具體情況按照測試目標決定。
測試將會按照順序進行測試,以上一輪測試的效果作為下一輪測試的標準進行優(yōu)化調(diào)整。
1.基礎測試
觸發(fā)詞測試
觸發(fā)詞測試將體驗官方給出的觸發(fā)詞與返圖中,可能生效的觸發(fā)詞進行一輪生成測試與權重測試。確保后續(xù)測試中使用的觸發(fā)詞為最優(yōu)解。
參數(shù)測試(可選)
測試觸發(fā)詞的過程中如果發(fā)現(xiàn)官方給出參數(shù)生成效果不佳,則進行參數(shù)測試。提取官方給出的參數(shù)并進行擴大范圍測試,確保后續(xù)測試中使用的參數(shù)為最優(yōu)解。
2.模型效果測試
大模型測試
大模型測試將測試模型在不同大模型畫風環(huán)境下的表現(xiàn)效果,將會采用截止至2023年8月,應用最廣泛且認可度最高的15個模型進行生成測試測試。
最終將會提煉出最適合lora的1~3個模型進行詳細的lora權重測試。確保后續(xù)測試中使用的模型兼容效果是最好的。
還原度測試(可選)
若模型為某個人物或某種畫風的還原類模型,則選擇最接近其還原對象的提示詞與大模型進行生成,嘗試還原最接近的效果。
兼容性測試
若為畫風類型,構圖類型lora,則著重使用不同人物lora對其進行測試,以考驗其畫風對其他人物的兼容程度,
若為人物類型,元素類型lora,則著重使用不同畫風lora對其進行測試,以考驗在不同環(huán)境情況下的還原效果。
若畫風存在兼容可能性,則會額外增加測試流程。
例如:q版卡通繪畫風格,可能可以與盲盒手辦畫風兼容,則進行測試。
功能性測試(可選)
lora具備功能性的前提是其還原的畫風具備想象空間,例如盲盒l(wèi)ora對人臉的q版玩具化,油畫lora對畫風進行的轉變。
當畫風存在潛在使用空間時,則增加測試類目,對其效果進行測試。 大部分情況沒必要測試那么多類型,頂多測一下圖生圖效果。我羅列出來頂多是增加個需要測試的備選選項。
圖生圖測試
使用圖生圖功能進行測試,測試其對素材的畫風影響能力。包括但不限于:
白盒引導生成(場景):3d模型拉box引導畫面生成。
照片畫風遷移:把照片轉化為目標畫風。
插件效果測試
測試各種插件情況下,模型的生效程度以及展示配合使用的效果。包括但不限于:
CN-線稿上色:通過canny,line等,把線稿上色成圖。
CN-openposs姿態(tài)控制:通過openposs引導人物動作,表情,手部動作等。
動畫插件:考慮到硬件壓力,雖然不建議使用,但是如果經(jīng)常玩的話還是測一下的好。
重繪:使用測試對象,對目標圖的局部進行遮罩重繪。
(1.1版本取消本項測試)
流程圖

通用測試流程規(guī)范
測試中使用的大模型
文檔鏈接:https://zhuanlan.zhihu.com/p/650514108
測試中使用的lora模型
文檔鏈接:https://zhuanlan.zhihu.com/p/650514470
測試中會使用的固定tag配方
文檔鏈接:https://zhuanlan.zhihu.com/p/650514589