更新AI新聞-20230825
渣渣機翻,沒測試過,只做一定匯總,盡請諒解,最近多匯總了一點,所以時間長點。
AD-Evo-Tuner Alpha:本地AnimateDiff運動模塊微調(diào)器 - 超級早期熱門混亂發(fā)布!

用于動畫差分運動模塊本地訓練的環(huán)境和 GUI
這是周末之前的一個非常早期的版本,允許人們嘗試微調(diào)自己的運動模塊以用于Animate Diff。存在問題,并非所有用于訓練的參數(shù)都暴露,驗證現(xiàn)在不起作用,正確的設(shè)置有點神秘,缺乏功能等。但它確實允許你訓練一些東西。
很快就會有更多的文檔,Cubey有一個使用這種方法的訓練模塊,它可以在 civit.ai 上找到,但作為nsfw,我不會在這里發(fā)布它。迄今為止的結(jié)果是有希望的,但仍有許多工作要做。
我希望在周末之前發(fā)布它將允許人們嘗試它并在 git 上打開問題。
包括一個默認數(shù)據(jù)集,其中包含用于初始運行的合成視頻以查看它是否有效,只需輸入新的項目名稱并點擊開始即可。如果您的終端看起來不一樣,則表示您遇到了問題。就這么簡單。
適用于Windows,nvidia僅3090 / 4090 - 也許?
Linux 根據(jù) git 有一些特殊的說明。
GUI 是準系統(tǒng),未經(jīng)在我自己的系統(tǒng)以外的任何系統(tǒng)上測試,應(yīng)該可以工作,也許它不會。
如果你愿意,你可以進入巴諾多科不和諧,告訴我它的一切錯誤。
https://discord.gg/mzAtxzMS
這是在圖穆爾扎科夫的一個叉子上建造的。
Cubey提供的很多幫助。
https://github.com/B34STW4RS/AD-Evo-Tuner
我會盡力解決每個問題,因為它在合理范圍內(nèi)出現(xiàn),所以如果你有任何問題,請告訴我。
謝謝。
DenseDiffusion-作者 金允姬, 李智英, 金鎮(zhèn)華, 河正宇, 朱俊燕
現(xiàn)有的文本到圖像擴散模型很難在給定密集標題的情況下合成逼真的圖像,其中每個文本提示都提供了特定圖像區(qū)域的詳細說明。 為了解決這個問題,我們提出了DenseDiffusion,這是一種免訓練方法,它調(diào)整了預(yù)先訓練的文本到圖像模型來處理如此密集的字幕,同時提供對場景布局的控制。 我們首先分析生成的圖像布局與預(yù)訓練模型的中間注意力圖之間的關(guān)系。 接下來,我們開發(fā)一種注意力調(diào)制方法,根據(jù)布局引導引導對象出現(xiàn)在特定區(qū)域。 無需額外的微調(diào)或數(shù)據(jù)集,我們提高了圖像生成性能,因為自動和人工評估分數(shù)都有密集的字幕。 此外,我們通過專門訓練布局條件的模型獲得類似質(zhì)量的視覺結(jié)果。

例子





https://github.com/naver-ai/DenseDiffusion
StableVideo穩(wěn)定視頻:文本驅(qū)動的一致性感知擴散視頻編輯-Wenhao Chai, Xun Guo, Gaoang Wang, Yan Lu
基于擴散的方法可以生成逼真的圖像和視頻,但它們很難編輯視頻中的現(xiàn)有對象,同時隨著時間的推移保持其外觀。這會阻止擴散模型應(yīng)用于實際場景中的自然視頻編輯。在本文中,我們通過向現(xiàn)有的文本驅(qū)動的擴散模型引入時間依賴性來解決這個問題,這允許它們?yōu)榫庉嫷膶ο笊梢恢碌耐庥^。具體來說,我們開發(fā)了一種用于擴散視頻編輯的新型幀間傳播機制,該機制利用分層表示的概念將外觀信息從一幀傳播到下一幀。然后,我們基于該機制構(gòu)建了一個文本驅(qū)動的視頻編輯框架,即StableVideo,可以實現(xiàn)一致性感知的視頻編輯。大量的實驗證明了我們方法的強大編輯能力。與最先進的視頻編輯方法相比,我們的方法顯示出卓越的定性和定量結(jié)果。



https://github.com/rese1f/stablevideo
BLENDER的生成式人工智能
AI 從文本提示或視頻、圖像或文本條帶生成視頻、圖像和音頻。

文字轉(zhuǎn)視頻
文本到音頻
文本轉(zhuǎn)語音
文本到圖像
圖像到圖像(優(yōu)化+提示)
圖像到視頻(優(yōu)化+提示)
視頻到視頻(優(yōu)化+提示)
樣式選擇器。
種子,質(zhì)量步驟,框架,文字功率,去噪,剝離功率。
將文本和媒體條帶批量轉(zhuǎn)換為視頻、音頻、音樂、語音或圖像。
批量細化圖像。
批量升級和細化電影。
型號卡選擇器。
呈現(xiàn)到路徑選擇器。
呈現(xiàn)已完成的通知。
模型卡:穩(wěn)定擴散1.5,2,XL,Deep Floyd IF,Zeroscope,Animov,AudioLMD2和Bark。
一鍵安裝和卸載依賴項。
生成的文件的用戶定義文件路徑。
種子和提示添加到條帶名稱。
要求
Windows或Linux(也許可以在MacOS上運行,但必須有人貢獻代碼才能使其工作)。
CUDA 支持的 Nvidia 卡,至少具有 4 GB VRAM。


https://github.com/tin2tin/Generative_AI
ReVersion-文字圖片反轉(zhuǎn),比如2個卡通小狗拿著2個毛絨熊,用這個插件,生成的就可能是2個毛絨熊拿著2個卡通小狗吧,呵呵。


Reversion Benchmark 由不同的關(guān)系和實體以及一組定義明確的文本描述組成。
關(guān)系和實體。我們定義了十種具有不同抽象層次的代表性對象關(guān)系,從基本空間關(guān)系(例如,“在上面”),實體相互作用(例如,“握手”)到抽象概念(例如,“被雕刻”)。涉及廣泛的實體,如動物、人類、家居用品,以進一步增加基準的多樣性。
示例圖像和文本說明。對于每個關(guān)系,我們收集四到十個包含不同實體的示例圖像。我們進一步為每個示例圖像注釋了幾個文本模板,以不同級別的細節(jié)來描述它們。這些訓練模板可用于優(yōu)化關(guān)系提示。
基準方案。我們設(shè)計了 100 個推理模板,為十種關(guān)系中的每個關(guān)系組成不同的對象實體。
https://github.com/ziqihuangg/ReVersion
https://ziqihuangg.github.io/projects/reversion.html
Vary (Region)の高度なテクニック (notion.site)-可能是用AI太圖克服高度物體問題-教程。
https://sizigi.notion.site/Vary-Region-5432fbcabb8e48c6a9e7057712e343f0
Beyond Surface Statistics:
Scene Representations in a Latent Diffusion Model這個效果不太好,僅供參考了。

https://yc015.github.io/scene-representation-diffusion-model/
以下是一些論文,暫時不知道開源與否。盡請諒解。
Color-NeuS:用顏色重建神經(jīng)隱式曲面,更快的多角度很多張禎圖片或者視頻,轉(zhuǎn)3D模型,顏色材質(zhì)模型都可以。



抽象
從多視圖圖像或單目視頻重建物體表面是一個基本問題 在計算機視覺中。然而,最近的大部分研究都集中在通過 隱式或顯式方法。在本文中,我們將重點轉(zhuǎn)移到重建網(wǎng)格上 與顏色結(jié)合。我們從神經(jīng)體積渲染中刪除與視圖相關(guān)的顏色,同時保留 通過重新照明網(wǎng)絡(luò)的體積渲染性能。從有符號距離中提取網(wǎng)格 函數(shù) (SDF) 網(wǎng)絡(luò)用于表面,每個表面頂點的顏色取自全局顏色 網(wǎng)絡(luò)。為了評估我們的方法,我們構(gòu)思了一個手部物體掃描任務(wù),其中包含許多 遮擋和照明條件的急劇變化。我們已經(jīng)為此任務(wù)收集了幾個視頻,并且 結(jié)果超過了任何能夠重建網(wǎng)格和顏色的現(xiàn)有方法。 此外,我們的方法的性能是使用公共數(shù)據(jù)集進行評估的,包括DTU,BlendedMVS, 和OmniObject3D。結(jié)果表明,我們的方法在所有這些數(shù)據(jù)集上表現(xiàn)良好。
https://github.com/Colmar-zlicheng/Color-NeuS
PlankAssembly:使用學習的形狀程序從三個正交視圖進行穩(wěn)健的 3D 重建-不知道是不是只能做組合柜。


抽象
在本文中,我們開發(fā)了一種新方法,可以將三個正交視圖中的 2D 線圖自動轉(zhuǎn)換為 3D CAD 模型。此問題的現(xiàn)有方法通過將 3D 觀測值反向投影到 2D 空間中來重建 3D 模型,同時保持輸入和輸出之間的顯式對應(yīng)關(guān)系。這種方法對輸入中的錯誤和噪聲很敏感,因此在人類設(shè)計師創(chuàng)建的輸入圖紙不完美的實踐中經(jīng)常失敗。為了克服這一困難,我們利用基于變壓器的序列生成模型中的注意力機制來學習輸入和輸出之間的靈活映射。此外,我們設(shè)計了適合生成感興趣對象的形狀程序,以提高重建精度并促進CAD建模應(yīng)用。在一個新的基準數(shù)據(jù)集上的實驗表明,當輸入嘈雜或不完全時,我們的方法明顯優(yōu)于現(xiàn)有方法。

https://github.com/manycore-research/PlankAssembly/