小白的數(shù)字人計(jì)劃
大家好,我是努力學(xué)習(xí)AI的小白,我的目標(biāo)是創(chuàng)建自己的數(shù)字人,現(xiàn)階段性大家匯報(bào)一下,自己思考、技術(shù)路徑、目前學(xué)習(xí)情況和遇到難點(diǎn)。 1.初心使命
自己思考:構(gòu)建數(shù)字人的初心來源于尋夢環(huán)游記。 尋夢環(huán)游記 死亡不是永別,遺忘才是,那么請記住我。remember me
怎樣才能不被遺忘,希望有一個(gè)自己的替身,在網(wǎng)上結(jié)識(shí)新朋友,講講自己的故事,聽聽新的見聞。生命有限,但歲月留痕。 2.技術(shù)儲(chǔ)備和思考:這是個(gè)龐大的系統(tǒng)工程
a本地部署or云端部署:
構(gòu)建一個(gè)可以使用并穩(wěn)定的服務(wù)器空間,未來可以上服務(wù)器,現(xiàn)在還是本地部署比較合理,并節(jié)約成本。 如何傳遞思想語言和文字(由大模型生成資料,由語音模型轉(zhuǎn)換成語音,由圖片模型生成圖片,之后轉(zhuǎn)述出來。) b語言大模型微調(diào):
技術(shù)路徑上:這是個(gè)系統(tǒng)工程。思想要想傳播要靠語言、圖像、聲音。這些真的很難實(shí)現(xiàn)。 ChatGPT的出現(xiàn)讓生成式人工智能又進(jìn)了一步??上覜]有魔法用不了他的API接口。不過清華大學(xué)開源了chatglm,同時(shí)github開源網(wǎng)站上又有了其他工具,例如聞達(dá)。 可以考慮利用大語言模型進(jìn)行簡單的微調(diào),訓(xùn)練形成自己的語言邏輯,那從現(xiàn)在開始就要進(jìn)行寫作整理文件。為文件打標(biāo)簽,以便未來進(jìn)行訓(xùn)練。 c語音模型輸出
現(xiàn)在市面上已經(jīng)有很多可以訓(xùn)練語音的大模型,目前還沒有進(jìn)行這方面的試驗(yàn)。 僅僅下載了小魚的rvc-bate版本。 和微軟的音頻 下載地址:https://loker-page.lgwawork.com/ d動(dòng)態(tài)語音
目前使用的sadtalk0.02版本。用照片驅(qū)動(dòng)嘴型進(jìn)行說話。 圖片生成 目前用stable diffusion web,生成圖片。 目前技術(shù)實(shí)現(xiàn)情況(沒有連成片未形成戰(zhàn)斗力) e其他情況-部署情況
利用chatGLm一鍵包進(jìn)行部署 利用聞達(dá)一鍵包進(jìn)行了部署 利用秋葉的stable diffusion一鍵包進(jìn)行了部署 利用進(jìn)化洲的sadtalker0.02版本一鍵包進(jìn)行了部署 下載微軟的ttw(不知道能使用多久,經(jīng)常報(bào)錯(cuò)) f其他情況-未部署
語音模型 各項(xiàng)目鏈接Python庫 3.目前已經(jīng)做的項(xiàng)目及流程
轉(zhuǎn)繪美女舞蹈,迭代三代(抖音賬號被封)
1.ps轉(zhuǎn)視頻禎-圖生圖-合并成視頻(缺點(diǎn),閃的厲害,經(jīng)常出現(xiàn)奇怪的結(jié)構(gòu)) 2.ps轉(zhuǎn)視頻禎-圖生圖+contorlnet openposs控制+合成視頻(還是閃瞎眼,并且賊慢,3060ti的顯卡都冒煙了) 3.利用ebsynth插件:插件中直接拆禎+生成關(guān)鍵禎+生成蒙版圖(由于一直安裝不上默認(rèn)的蒙版插件,只能利用其他插件。)+關(guān)鍵禎圖生圖+contorlnet openposs、硬邊緣、tile等,生成關(guān)鍵禎圖生圖圖片+調(diào)整生成圖片大小和風(fēng)格+ebsynth開始生成中間禎+合成視頻+升禎軟件加禎 項(xiàng)目還是存在很大的缺點(diǎn) 衣服不固定,經(jīng)常變化,用關(guān)鍵詞限制也很難。據(jù)說改進(jìn)的辦法是煉丹,訓(xùn)練一個(gè)lora,利用lora控制人物。 還是有些閃,畢竟不是3d建模,有些動(dòng)作還是視頻生成,難以達(dá)到想要的效果。 1000個(gè)激勵(lì)師項(xiàng)目
美女講勵(lì)志語錄,傳遞正能量(迭代兩代不溫不火) 利用sd生成美女圖片-使用ChatGPT生成勵(lì)志話術(shù)-用剪映生成語音文件-sadtalker進(jìn)行圖片語音生成(剪映生成有限制、需使用會(huì)員) 利用sd生成美女圖片-使用文心一言生成勵(lì)志話術(shù)-用ttw生成語音文件-sadtalker進(jìn)行圖片語音生成。 小說推文項(xiàng)目(未開始)
4.總結(jié):知止而后能定,定而后能安,安而后能慮,慮而后能得。
技術(shù)更新太快了,現(xiàn)在居然出現(xiàn)有文生視頻的軟件,過去有個(gè)虛擬女友游戲,直接可以用iphone手機(jī)可以動(dòng)作捕捉。 兜兜轉(zhuǎn)轉(zhuǎn),還是沒有實(shí)現(xiàn)自己的數(shù)字人,我需要重新思考一下啦。 最近有個(gè)考試,需要學(xué)習(xí)一下,剩余的時(shí)間不是太多。暫時(shí)告別,等考完試再回來,拜拜,我熱愛的新技術(shù),再見我的初心和夢想。