妙鴨相機(jī)本地平替,5張照片生成個(gè)人專屬寫真
妙鴨相機(jī)本地平替,5張照片生成個(gè)人專屬寫真
前段時(shí)間妙鴨相機(jī)大火,通過上傳一些你自己的照片,就可以擁有一個(gè)專屬的數(shù)字分身,然后得到一張張專業(yè)質(zhì)感的寫真。但由于需要上傳個(gè)人20張照片到服務(wù)器,其隱私性備受爭(zhēng)議。
就在8月10日,阿里魔搭社區(qū)也上線了人物寫真生成在線demo,用戶可免費(fèi)體驗(yàn)個(gè)人寫真生成,體驗(yàn)地址:https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary,但同樣是在線生成存在隱私問題,且免費(fèi)體驗(yàn)需要排隊(duì)。
基于上述問題,學(xué)術(shù)Fun第一時(shí)間基于阿里開源的人物寫真生成模型,肝出了windows一鍵啟動(dòng)整合包,集成了python環(huán)境以及用到的算法模型,在你自己的本地電腦即可免費(fèi)體驗(yàn)AI人物寫真,使用效果如下。
上述寫真照片,由以下幾張馬老師照片生成。
安裝教程
下面廢話不多說,進(jìn)入整合包下載安裝教程,首先明確前提環(huán)境:
擁有12G顯存以上N卡
windows 10以上
安裝了11.8及以上版本的Cuda
Cuda的下載安裝教程網(wǎng)上很多,這里不再贅述。
整合包使用教程
下載整合壓縮包,下載地址: https://xueshu.fun/2891/
解壓后,如下圖所示,雙擊
啟動(dòng)程序.bat
文件運(yùn)行
啟動(dòng)后瀏覽器訪問http://127.0.0.1:7860/,軟件界面如下所示。
點(diǎn)擊
選擇圖片上傳
,選擇本地圖片,注意人臉不要有遮擋,否則效果不好點(diǎn)擊
開始訓(xùn)練
,本人3090顯卡,5張圖片訓(xùn)練時(shí)間在10分鐘以內(nèi),訓(xùn)練完成后,下方有文字提示。
訓(xùn)練完成后,切換至形象體驗(yàn),選擇生成圖片數(shù)量,點(diǎn)擊
開始推理
即可生成寫真,6張圖片推理時(shí)間大概在2分鐘左右
更多
算法原理
個(gè)人寫真模型的能力來源于Stable Diffusion模型的文生圖功能,輸入一段文本或一系列提示詞,輸出對(duì)應(yīng)的圖像。我們考慮影響個(gè)人寫真生成效果的主要因素:寫真風(fēng)格信息,以及用戶人物信息。為此,我們分別使用線下訓(xùn)練的風(fēng)格LoRA模型和線上訓(xùn)練的人臉LoRA模型以學(xué)習(xí)上述信息。LoRA是一種具有較少可訓(xùn)練參數(shù)的微調(diào)模型,在Stable Diffusion中,可以通過對(duì)少量輸入圖像進(jìn)行文生圖訓(xùn)練的方式將輸入圖像的信息注入到LoRA模型中。因此,個(gè)人寫真模型的能力分為訓(xùn)練與推斷兩個(gè)階段,訓(xùn)練階段生成用于微調(diào)Stable Diffusion模型的圖像與文本標(biāo)簽數(shù)據(jù),得到人臉LoRA模型;推斷階段基于人臉LoRA模型和風(fēng)格LoRA模型生成個(gè)人寫真圖像。
訓(xùn)練階段
輸入:用戶上傳的包含清晰人臉區(qū)域的圖像
輸出:人臉LoRA模型
描述:首先,我們分別使用基于朝向判斷的圖像旋轉(zhuǎn)模型,以及基于人臉檢測(cè)和關(guān)鍵點(diǎn)模型的人臉精細(xì)化旋轉(zhuǎn)方法處理用戶上傳圖像,得到包含正向人臉的圖像;接下來,我們使用人體解析模型和人像美膚模型,以獲得高質(zhì)量的人臉訓(xùn)練圖像;隨后,我們使用人臉屬性模型和文本標(biāo)注模型,結(jié)合標(biāo)簽后處理方法,產(chǎn)生訓(xùn)練圖像的精細(xì)化標(biāo)簽;最后,我們使用上述圖像和標(biāo)簽數(shù)據(jù)微調(diào)Stable Diffusion模型得到人臉LoRA模型。
推斷階段
輸入:訓(xùn)練階段用戶上傳圖像,預(yù)設(shè)的用于生成個(gè)人寫真的輸入提示詞
輸出:個(gè)人寫真圖像
描述:首先,我們將人臉LoRA模型和風(fēng)格LoRA模型的權(quán)重融合到Stable Diffusion模型中;接下來,我們使用Stable Diffusion模型的文生圖功能,基于預(yù)設(shè)的輸入提示詞初步生成個(gè)人寫真圖像;隨后,我們使用人臉融合模型進(jìn)一步改善上述寫真圖像的人臉細(xì)節(jié),其中用于融合的模板人臉通過人臉質(zhì)量評(píng)估模型在訓(xùn)練圖像中挑選;最后,我們使用人臉識(shí)別模型計(jì)算生成的寫真圖像與模板人臉的相似度,以此對(duì)寫真圖像進(jìn)行排序,并輸出排名靠前的個(gè)人寫真圖像作為最終輸出結(jié)果。
模型列表
附(流程圖中模型鏈接)
[1] ?人臉檢測(cè)+關(guān)鍵點(diǎn)模型DamoFD:https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd
[2] ?圖像旋轉(zhuǎn)模型:創(chuàng)空間內(nèi)置模型
[3] ?人體解析模型M2FP:https://modelscope.cn/models/damo/cv_resnet101_image-multiple-human-parsing
[4] ?人像美膚模型ABPN:https://modelscope.cn/models/damo/cv_unet_skin-retouching
[5] ?人臉屬性模型FairFace:https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface
[6] ?文本標(biāo)注模型Deepbooru:https://github.com/KichangKim/DeepDanbooru
[7] ?模板臉篩選模型FQA:https://modelscope.cn/models/damo/cv_manual_face-quality-assessment_fqa
[8] ?人臉融合模型:https://modelscope.cn/models/damo/cv_unet-image-face-fusion_damo
[9] ?人臉識(shí)別模型RTS:https://modelscope.cn/models/damo/cv_ir_face-recognition-ood_rts