手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 科技 »學習 » Lora模型測試測試工作流 - 0.2

Lora模型測試測試工作流 - 0.2

2023-08-17 13:51 作者:向內(nèi)生長_ 0人讀過 | 我要投稿

更新日志

2023年8月13日前：0.1版本

總結之前的測試流程，進行歸納總結。

2023年8月14日：0.2版本

提示詞測試將會提取lora模型訓練中出現(xiàn)頻率更多的詞作為提示詞，而不僅只是用官方提供的詞。

增加判斷標準：

1.畫風lora在極低tag情況下如果畫面依然復雜，且多次生成時有固定元素，可能模型打標有問題。

2.人物lora在良好訓練環(huán)境下，是需要對服裝進行詳細描述才能進行生成的。這種人物lora更可控，且可以對人物特征進行修改。

增加測試環(huán)節(jié)：

低tag畫風測試：測試lora在極低tag情況下的畫面生成效果。

人物lora區(qū)別測試：測試人物lora在“無觸發(fā)詞”，“1girl”，“詳細描述的觸發(fā)詞”，“修改特征”這四類不同觸發(fā)詞情況下的生成表現(xiàn)。

修改測試素材：

增加人物lora測試素材，在測試畫風時，對比測試畫風在適配低提示詞的lora與適配復雜提示詞的lora的表現(xiàn)。

刪除測試項：插件測試

插件幾乎無所不能，如果模型需要依靠插件才能實現(xiàn)效果，那么針對模型的測試也就失去了意義。

概述

之前也做過很多模型測試，基本都是從應用層面出發(fā)對模型效果的一種固定流程的測試模式。最近整理的差不多了也是時候發(fā)布一個版本出來了。未來做測試也就是發(fā)發(fā)圖了，每次整理配方真的心累，寫個簡評發(fā)布起來也簡單很多。

另外就是之前的測試一直都有問題，其中最容易解決的就是流程不固定，沒辦法對照參考來判斷模型質量，寫這個文檔也是把流程逐漸固定下來，產(chǎn)出的數(shù)據(jù)價值也更高一些。

交流群

微信群：

QQ群：697080799

下載鏈接

測試中使用的大模型：

鏈接：https://pan.baidu.com/s/1O8yC2B9pQwIg5b_r1ySdMw?pwd=w13k

提取碼：w13k

測試中使用的lora模型：

鏈接：https://pan.baidu.com/s/1XO6Kl6r5nEyDhiCkJrnJ5w?pwd=tsqt

提取碼：tsqt

判斷標準

本測試不判斷模型好壞，僅測試模型適用范圍。

主要目的為展示測試數(shù)據(jù)，簡評中的判斷均包含強烈個人審美與使用偏好，具體使用方式應當以測試數(shù)據(jù)為準自行判斷。

判斷依據(jù)

使用體驗：使用過程中的感受，是否易用，是否滿足簡單需求。

泛用性：是否兼容各種畫風，是否能與其他畫風進行融合。

可控性：是否能穩(wěn)定的滿足自身職能，并且在任何環(huán)境下生效。

可塑性：是否在滿足自身只能的情況下，做一些小幅度修改。

**：是不是夠色，符合我口味。

基本判斷依據(jù)

不同需求人群對lora的好壞態(tài)度也不同，判斷依據(jù)因人而異。這里的基本判斷依據(jù)將會粗略分為兩套判斷標準。

第一套判斷標準是“本職工作”，也就是最基礎的模型素質。主要考量的是模型質量，低tag情況下表現(xiàn)，還原度等等。這套判斷標準主要針對單一功能的模型，比如單純對某個人物的還原，單純生成某種場景。故而不考慮其泛用性，易用性以及tag可控性。

第二套判斷標準則是模型的“想象空間”：是否兼容畫風，是否具備可塑性，是否能發(fā)揮一定程度的商業(yè)價值。這套標準會更刁難模型，做它“本職”以外的事情。

在簡評中將會以此為基本判斷依據(jù)，用不同期望對模型進行測試，故而即便進行評分，也不建議進行橫向對比，主要圖一樂。具體使用方式應當以測試數(shù)據(jù)為準自行判斷。

流程解釋

考慮到測試目標的不同，流程將會分為固定流程與非固定流程兩個板塊。固定流程為同用于所有模型的固定測試環(huán)節(jié)，包括：大模型測試，lora兼容性測試，低tag生效性測試。非固定流程為按照模型信息選擇性的測試環(huán)節(jié)，包括：觸發(fā)詞效果測試，圖生圖測試等，具體情況按照測試目標決定。

測試將會按照順序進行測試，以上一輪測試的效果作為下一輪測試的標準進行優(yōu)化調(diào)整。

1.基礎測試

觸發(fā)詞測試

觸發(fā)詞測試將體驗官方給出的觸發(fā)詞與返圖中，可能生效的觸發(fā)詞進行一輪生成測試與權重測試。確保后續(xù)測試中使用的觸發(fā)詞為最優(yōu)解。

參數(shù)測試（可選）

測試觸發(fā)詞的過程中如果發(fā)現(xiàn)官方給出參數(shù)生成效果不佳，則進行參數(shù)測試。提取官方給出的參數(shù)并進行擴大范圍測試，確保后續(xù)測試中使用的參數(shù)為最優(yōu)解。

2.模型效果測試

大模型測試

大模型測試將測試模型在不同大模型畫風環(huán)境下的表現(xiàn)效果，將會采用截止至2023年8月，應用最廣泛且認可度最高的15個模型進行生成測試測試。

最終將會提煉出最適合lora的1~3個模型進行詳細的lora權重測試。確保后續(xù)測試中使用的模型兼容效果是最好的。

還原度測試（可選）

若模型為某個人物或某種畫風的還原類模型，則選擇最接近其還原對象的提示詞與大模型進行生成，嘗試還原最接近的效果。

兼容性測試

若為畫風類型，構圖類型lora，則著重使用不同人物lora對其進行測試，以考驗其畫風對其他人物的兼容程度，

若為人物類型，元素類型lora，則著重使用不同畫風lora對其進行測試，以考驗在不同環(huán)境情況下的還原效果。

若畫風存在兼容可能性，則會額外增加測試流程。

例如：q版卡通繪畫風格，可能可以與盲盒手辦畫風兼容，則進行測試。

功能性測試（可選）

lora具備功能性的前提是其還原的畫風具備想象空間，例如盲盒l(wèi)ora對人臉的q版玩具化，油畫lora對畫風進行的轉變。

當畫風存在潛在使用空間時，則增加測試類目，對其效果進行測試。大部分情況沒必要測試那么多類型，頂多測一下圖生圖效果。我羅列出來頂多是增加個需要測試的備選選項。

圖生圖測試

使用圖生圖功能進行測試，測試其對素材的畫風影響能力。包括但不限于：

白盒引導生成（場景）：3d模型拉box引導畫面生成。

照片畫風遷移：把照片轉化為目標畫風。

插件效果測試

測試各種插件情況下，模型的生效程度以及展示配合使用的效果。包括但不限于：

CN-線稿上色：通過canny，line等，把線稿上色成圖。

CN-openposs姿態(tài)控制：通過openposs引導人物動作，表情，手部動作等。

動畫插件：考慮到硬件壓力，雖然不建議使用，但是如果經(jīng)常玩的話還是測一下的好。

重繪：使用測試對象，對目標圖的局部進行遮罩重繪。

（1.1版本取消本項測試）

流程圖

通用測試流程規(guī)范

測試中使用的大模型

文檔鏈接：https://zhuanlan.zhihu.com/p/650514108

測試中使用的lora模型

文檔鏈接：https://zhuanlan.zhihu.com/p/650514470

測試中會使用的固定tag配方

文檔鏈接：https://zhuanlan.zhihu.com/p/650514589

標簽：科技 lora 工作流 ai繪畫 Stable diffusion