最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

向文本到圖像擴(kuò)散模型添加條件控制

2023-02-17 15:24 作者:3D視覺(jué)工坊  | 我要投稿

筆者個(gè)人理解

我們知道深度學(xué)習(xí)的模型往往都是在某一領(lǐng)域或者特定場(chǎng)景的,大的領(lǐng)域像是NLP,CV,大領(lǐng)域還可以細(xì)分出許多的小領(lǐng)域。由于筆者對(duì)CV比較熟悉,就經(jīng)常想可不可以訓(xùn)練這樣一個(gè)模型,它可以識(shí)別不同應(yīng)用場(chǎng)景,根據(jù)不同的應(yīng)用場(chǎng)景來(lái)選擇不同的識(shí)別模型。但是能力有限,一直沒(méi)有做出來(lái)啊。直到看到了這篇論文。在本文介紹的論文中,是在Text-to-Image Diffusion Models 中添加了控制條件,根據(jù)所輸入的不同,包括邊緣圖,houghline圖,深度圖,分割圖等等,結(jié)合相應(yīng)的text來(lái)生成圖片。這其實(shí)給了筆者一個(gè)很好的啟發(fā)。下面可以隨筆者一起詳細(xì)看一下。

來(lái)源:微信公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」

摘要

我們提出了一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) ControlNet,用于控制預(yù)訓(xùn)練的大型擴(kuò)散模型以支持額外的輸入條件。 ControlNet 以端到端的方式學(xué)習(xí)特定于任務(wù)的條件,即使訓(xùn)練數(shù)據(jù)集很小 (< 50k),學(xué)習(xí)也很穩(wěn)健。此外,訓(xùn)練 ControlNet 與微調(diào)擴(kuò)散模型一樣快,并且可以在個(gè)人設(shè)備上訓(xùn)練模型?;蛘?,如果可以使用強(qiáng)大的計(jì)算集群,該模型可以擴(kuò)展到大量(數(shù)百萬(wàn)到數(shù)十億)數(shù)據(jù)。我們報(bào)告說(shuō),像 Stable Diffusion 這樣的大型擴(kuò)散模型可以通過(guò) ControlNets 進(jìn)行增強(qiáng),以啟用邊緣圖、分割圖、關(guān)鍵點(diǎn)等條件輸入。這可能會(huì)豐富控制大型擴(kuò)散模型的方法,并進(jìn)一步促進(jìn)相關(guān)應(yīng)用。

github實(shí)現(xiàn):github.com/lllyasviel/C

論文pdf:arxiv.org/abs/2302.0554

1 介紹

隨著大型文本到圖像模型的出現(xiàn),生成視覺(jué)上吸引人的圖像可能只需要用戶輸入簡(jiǎn)短的描述性提示。在輸入了一些文字并得到了圖像之后,我們可能會(huì)很自然地產(chǎn)生幾個(gè)問(wèn)題:這種基于提示的控件是否滿足我們的需求?例如在圖像處理中,考慮到許多具有明確問(wèn)題公式的長(zhǎng)期任務(wù),是否可以應(yīng)用這些大型模型來(lái)促進(jìn)這些特定任務(wù)?我們應(yīng)該構(gòu)建什么樣的框架來(lái)處理范圍廣泛的問(wèn)題條件和用戶控件?在特定任務(wù)中,大型模型能否保留從數(shù)十億圖像中獲得的優(yōu)勢(shì)和能力?

為了回答這些問(wèn)題,我們調(diào)查了各種圖像處理應(yīng)用程序并得出了三個(gè)發(fā)現(xiàn)。首先,特定任務(wù)領(lǐng)域中的可用數(shù)據(jù)規(guī)模并不總是與一般圖像文本領(lǐng)域中的數(shù)據(jù)規(guī)模一樣大。許多特定問(wèn)題(例如,對(duì)象形狀/法線、姿態(tài)理解等)的最大數(shù)據(jù)集大小通常低于 100k,即比 LAION-5B 小 5×104 倍。這將需要強(qiáng)大的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法來(lái)避免過(guò)度擬合并在針對(duì)特定問(wèn)題訓(xùn)練大型模型時(shí)保持泛化能力。

其次,當(dāng)使用數(shù)據(jù)驅(qū)動(dòng)解決方案處理圖像處理任務(wù)時(shí),大型計(jì)算集群并不總是可用。這使得快速訓(xùn)練方法對(duì)于在可接受的時(shí)間和內(nèi)存空間(例如,在個(gè)人設(shè)備上)內(nèi)針對(duì)特定任務(wù)優(yōu)化大型模型非常重要。這將進(jìn)一步需要利用預(yù)訓(xùn)練的權(quán)重,以及微調(diào)策略或遷移學(xué)習(xí)。

第三,各種圖像處理問(wèn)題具有多種形式的問(wèn)題定義、用戶控制或圖像注釋。在解決這些問(wèn)題時(shí),雖然圖像擴(kuò)散算法可以以“程序”方式進(jìn)行調(diào)節(jié),例如,約束去噪過(guò)程、編輯多頭注意激活等,但這些手工制定的規(guī)則的行為基本上是由人類(lèi)指令規(guī)定的.考慮到一些特定的任務(wù),如深度到圖像、姿勢(shì)到人等,這些問(wèn)題本質(zhì)上需要將原始輸入解釋為對(duì)象級(jí)或場(chǎng)景級(jí)的理解,這使得手工制作的程序方法不太可行。要在許多任務(wù)中實(shí)現(xiàn)學(xué)習(xí)解決方案,端到端學(xué)習(xí)是必不可少的

圖 1:使用 Canny 邊緣圖控制穩(wěn)定擴(kuò)散。 canny edge map 是輸入,當(dāng)我們生成右邊的圖像時(shí)沒(méi)有使用源圖像。輸出是通過(guò)默認(rèn)提示“高質(zhì)量、詳細(xì)和專(zhuān)業(yè)的圖像”實(shí)現(xiàn)的。此提示在本文中用作默認(rèn)提示,不提及任何有關(guān)圖像內(nèi)容和對(duì)象名稱(chēng)的信息。本文中的大部分圖片都是高分辨率圖像,放大后效果最佳。

本文介紹了 ControlNet,這是一種端到端的神經(jīng)網(wǎng)絡(luò)架構(gòu),可控制大型圖像擴(kuò)散模型(如穩(wěn)定擴(kuò)散)以學(xué)習(xí)特定于任務(wù)的輸入條件。 ControlNet 將大型擴(kuò)散模型的權(quán)重克隆為“可訓(xùn)練副本”和“鎖定副本”:鎖定副本保留了從數(shù)十億圖像中學(xué)習(xí)的網(wǎng)絡(luò)能力,而可訓(xùn)練副本在特定任務(wù)的數(shù)據(jù)集上進(jìn)行訓(xùn)練以學(xué)習(xí)條件控制。可訓(xùn)練和鎖定的神經(jīng)網(wǎng)絡(luò)塊與一種稱(chēng)為“零卷積”的獨(dú)特類(lèi)型的卷積層連接,其中卷積權(quán)重以學(xué)習(xí)的方式從零逐漸增長(zhǎng)到優(yōu)化參數(shù)。由于保留了生產(chǎn)就緒的權(quán)重,因此訓(xùn)練在不同規(guī)模的數(shù)據(jù)集上都很穩(wěn)健。由于零卷積不會(huì)為深層特征添加新的噪聲,與從頭開(kāi)始訓(xùn)練新層相比,訓(xùn)練與微調(diào)擴(kuò)散模型一樣快。

我們使用不同條件的各種數(shù)據(jù)集訓(xùn)練了幾個(gè) ControlNet,例如 Canny 邊緣、Hough 線、用戶涂鴉、人體關(guān)鍵點(diǎn)、分割圖、形狀法線、深度等。我們還用兩個(gè)小數(shù)據(jù)集(樣本小于 50k)對(duì) ControlNet 進(jìn)行了實(shí)驗(yàn)甚至 1k) 和大型數(shù)據(jù)集(數(shù)百萬(wàn)個(gè)樣本)。我們還表明,在深度到圖像等某些任務(wù)中,在個(gè)人計(jì)算機(jī)(一臺(tái) Nvidia RTX 3090TI)上訓(xùn)練 ControlNets 可以獲得與在具有 TB 級(jí) GPU 內(nèi)存和數(shù)千 GPU 小時(shí)的大型計(jì)算集群上訓(xùn)練的商業(yè)模型相媲美的結(jié)果。

2 相關(guān)工作

詳情請(qǐng)見(jiàn)原文:微信公眾號(hào)「計(jì)算機(jī)視覺(jué)工坊」

本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。

3D視覺(jué)工坊精品課程官網(wǎng):3dcver.com

1.面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)

2.徹底搞透視覺(jué)三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)

3.國(guó)內(nèi)首個(gè)面向工業(yè)級(jí)實(shí)戰(zhàn)的點(diǎn)云處理課程

4.激光-視覺(jué)-IMU-GPS融合SLAM算法梳理和代碼講解

5.徹底搞懂視覺(jué)-慣性SLAM:基于VINS-Fusion正式開(kāi)課啦

6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化

7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實(shí)戰(zhàn)(cartographer+LOAM +LIO-SAM)?

8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實(shí)踐]

9.單目深度估計(jì)方法:算法梳理與代碼實(shí)現(xiàn)

10.自動(dòng)駕駛中的深度學(xué)習(xí)模型部署實(shí)戰(zhàn)

11.相機(jī)模型與標(biāo)定(單目+雙目+魚(yú)眼)

12.重磅!四旋翼飛行器:算法與實(shí)戰(zhàn)

13.ROS2從入門(mén)到精通:理論與實(shí)戰(zhàn)

14.國(guó)內(nèi)首個(gè)3D缺陷檢測(cè)教程:理論、源碼與實(shí)戰(zhàn)

15.基于Open3D的點(diǎn)云處理入門(mén)與實(shí)戰(zhàn)教程

16.透徹理解視覺(jué)ORB-SLAM3:理論基礎(chǔ)+代碼解析+算法改進(jìn)

17.不斷更新中......

重磅!粉絲學(xué)習(xí)交流群已成立

交流群主要有3D視覺(jué)、CV&深度學(xué)習(xí)、SLAM、三維重建、點(diǎn)云后處理、自動(dòng)駕駛、多傳感器融合、CV入門(mén)、三維測(cè)量、VR/AR、3D人臉識(shí)別、醫(yī)療影像、缺陷檢測(cè)、行人重識(shí)別、目標(biāo)跟蹤、視覺(jué)產(chǎn)品落地、視覺(jué)競(jìng)賽、車(chē)牌識(shí)別、硬件選型、ORB-SLAM系列源碼交流、深度估計(jì)、TOF、求職交流等方向。

添加小助理微信(dddvisiona),一定要備注:研究方向+學(xué)校/公司+昵稱(chēng),例如:”3D視覺(jué) + 上海交大 + 靜靜“。請(qǐng)按照格式備注,可快速通過(guò)且邀請(qǐng)進(jìn)群。原創(chuàng)投稿也請(qǐng)聯(lián)系。? ??

向文本到圖像擴(kuò)散模型添加條件控制的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宁河县| 汪清县| 康定县| 白水县| 陆川县| 广丰县| 丽江市| 都匀市| 大宁县| 丰原市| 武夷山市| 罗定市| 汉中市| 大同市| 嘉义县| 濮阳市| 平乐县| 开阳县| 达日县| 馆陶县| 共和县| 屏东市| 定州市| 黄陵县| 阳高县| 伊川县| 茶陵县| 红安县| 黄石市| 栖霞市| 丽水市| 林甸县| 宁武县| 新丰县| 内黄县| 祁东县| 江山市| 潞城市| 宝丰县| 上犹县| 繁峙县|