文本轉(zhuǎn)視頻工具–Stable Video Diffusion
11月21日,Stability官方推出了Stable Video Diffusion:Introducing Stable Video Diffusion — Stability AI,也就是基于Stable Diffusion的開(kāi)源視頻生成模型。

SVD支持圖像轉(zhuǎn)視頻、文本生成視頻同樣具備多視角合成和微調(diào)功能。SVD將會(huì)推出兩種圖像轉(zhuǎn)視頻模型,可以生成每秒14到25幀的動(dòng)畫(huà)?;赟D基礎(chǔ)模型的SVD在用戶偏好評(píng)估中已經(jīng)遠(yuǎn)超Pika和runway gen2模型,SVD模型在576 x1024分辨率下訓(xùn)練可以快速生成14幀以上的上下文圖像并添加了防抖動(dòng)的解碼器。SVD XT模型則可以生成每秒25幀的圖像。

目前,Stability已經(jīng)在huggingface提供了SVD,SVD XT模型的下載地址:stabilityai/stable-video-diffusion-img2vid-xt · Hugging Face。從網(wǎng)友實(shí)測(cè)的結(jié)果可以看出,Svd生成的短視頻已經(jīng)可以媲美最先進(jìn)的GEN2模型。此外,為了證明自己的實(shí)力Runway官方宣布,正式推出Motion Brush, Gen-2 Style Presets, 以及升級(jí)版的Camera Controls功能。經(jīng)過(guò)升級(jí)后,在文本轉(zhuǎn)圖像圖像轉(zhuǎn)視頻的過(guò)程中Gen-2還會(huì)具備更強(qiáng)的保真度和分辨率。風(fēng)格預(yù)設(shè)則是首次加入的功能,用戶可以選擇多種預(yù)設(shè)視頻風(fēng)格,無(wú)需輸入復(fù)雜的提示就可以生成媲美電影畫(huà)質(zhì)的視頻?,F(xiàn)在登錄到Runway,就可以使用Motion Brush beta工具了。
上傳一張圖像,調(diào)整筆刷遮罩需要移動(dòng)的區(qū)域,選中人物的輪廓下方的三個(gè)選項(xiàng)則可以調(diào)整數(shù)值??刂扑酱怪焙徒咏乃俣仍O(shè)置,完成后點(diǎn)擊生成一段視頻。從生成的視頻可以看出,Motion Brush選中區(qū)域的人物會(huì)按照我們?cè)O(shè)置的軌跡移動(dòng)。
此外選擇text to video模式,右側(cè)則新增了一項(xiàng)add style功能??梢赃x擇預(yù)設(shè)視頻風(fēng)格。例如,選擇3D卡通風(fēng)格,輸入一段文本提示開(kāi)始生成視頻。目前Runway的新注冊(cè)用戶依然可以獲得100秒免費(fèi)額度,點(diǎn)擊這個(gè)鏈接就可以體驗(yàn)gen2的新功能。

近期anthropic宣布推出Claude 2.1模型:Anthropic \ Introducing Claude 2.1。Claude 2.1目前已經(jīng)提供API接口,并提供了高達(dá)200K的上下文能力,可以快速讀取15萬(wàn)的英文單詞。在幾分鐘內(nèi)閱讀完一本長(zhǎng)篇文學(xué)作品。Claude 2.1經(jīng)過(guò)了優(yōu)化減少虛假陳述和錯(cuò)誤信息的提供。在和Claude 2模型的對(duì)比中,Claude 2.1的理解能力得到了明顯的增強(qiáng),錯(cuò)誤率也降低了30%以上。Claude 2.1推出后,在上下文能力方面已經(jīng)遠(yuǎn)遠(yuǎn)超越了GPT4 TURBO模型。
此外,Meta也在近期推出了兩項(xiàng)新技術(shù),分別是EMU EDIT:Emu Edit (metademolab.com)和EMU VIDEO:Emu Video | Meta (metademolab.com)。EMU EDIT是一個(gè)實(shí)時(shí)圖像編輯工具,可以實(shí)現(xiàn)圖像編輯自動(dòng)化。例如,輸入一段提示圖像中就會(huì)顯示出對(duì)應(yīng)的文本。在EMU EDIT的幫助下,我們可以輸入任意的命令。在保持圖像結(jié)構(gòu)的前提下替換圖像主題的色彩風(fēng)格并可以添加和原圖風(fēng)格一致的物體。EMU EDIT將會(huì)重新定義圖像編輯的方法,用戶無(wú)需學(xué)習(xí)任何圖像編輯知識(shí),輸入簡(jiǎn)單的提示就可以把自己的想法轉(zhuǎn)換為可視化的內(nèi)容。

EMU VIDEO可以生成4K高分辨率的視頻,也被META稱為最強(qiáng)的視頻生成工具。EMU VIDEO是一種基于擴(kuò)散模型的視頻生成工具,在和市場(chǎng)的主流模型對(duì)比中,畫(huà)質(zhì)和理解力指標(biāo)方面都非常優(yōu)秀。從生成的視頻樣本可以看出,EMU VIDEO可以生成高質(zhì)量的視頻和清晰的字體。