16G以上顯存N卡進(jìn),文字生成視頻本地整合包體驗(yàn)!
16G以上顯存N卡進(jìn),文字生成視頻本地整合包體驗(yàn)!
文本到視頻生成擴(kuò)散模型, 通過輸入英文描述文本,返回符合文本描述的視頻。文本到視頻生成擴(kuò)散模型由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺空間這3個(gè)子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。擴(kuò)散模型采用Unet3D結(jié)構(gòu),通過從純高斯噪聲視頻中,迭代去噪的過程,實(shí)現(xiàn)視頻生成的功能。案例如下所示。
Robot dancing in times square.(機(jī)器人在時(shí)代廣場跳舞)

Clown fish swimming through the coral reef.?(小丑魚在珊瑚中游泳)

學(xué)術(shù)Fun將上述工具制作成一鍵啟動(dòng)包,點(diǎn)擊即可使用,避免大家配置Python環(huán)境出現(xiàn)各種問題,下載地址: ?https://xueshu.fun/2804/
整合包使用教程
下載壓縮包 下載地址: https://xueshu.fun/2804/

解壓后,如下圖所示,雙擊bat文件運(yùn)行

打開軟件如下圖所示

瀏覽器訪問http://127.0.0.1:7860/,即可在瀏覽器里操作啦!
輸入英文視頻描述,點(diǎn)擊提交,3090顯卡等待50秒左右,即可生成視頻,軟件的視頻預(yù)覽有點(diǎn)問題,點(diǎn)擊右上角的下載按鈕即可下載到本地

標(biāo)簽: