最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

擴(kuò)散模型 / Diffusion model

2023-02-24 20:19 作者:Nulll_Official  | 我要投稿

https://zh.wikipedia.org/wiki/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B

機(jī)器學(xué)習(xí)中,擴(kuò)散模型擴(kuò)散概率模型是一類潛變量模型,是用變分估計(jì)訓(xùn)練的馬爾可夫鏈。擴(kuò)散模型的目標(biāo)是通過對(duì)數(shù)據(jù)點(diǎn)在潛空間中的擴(kuò)散方式進(jìn)行建模,來學(xué)習(xí)數(shù)據(jù)集的潛結(jié)構(gòu)。計(jì)算機(jī)視覺中,這意味著通過學(xué)習(xí)逆擴(kuò)散過程訓(xùn)練神經(jīng)網(wǎng)絡(luò),使其能對(duì)疊加了高斯噪聲的圖像進(jìn)行去噪。計(jì)算機(jī)視覺中使用通用擴(kuò)散模型框架的3個(gè)例子是去噪擴(kuò)散概率模型、噪聲條件得分網(wǎng)絡(luò)和隨機(jī)微分方程。

擴(kuò)散模型是在2015年提出的,其動(dòng)機(jī)來自非平衡態(tài)熱力學(xué)。

擴(kuò)散模型可以應(yīng)用于各種任務(wù),如圖像去噪、圖像修復(fù)、超分辨率成像、圖像生成等等。例如,一個(gè)圖像生成模型,經(jīng)過對(duì)自然圖像的擴(kuò)散過程的反轉(zhuǎn)訓(xùn)練之后,可從一張完全隨機(jī)的噪聲圖像開始逐步生成新的自然圖像。比較近的例子有2022年4月13日OpenAI公布的文生圖模型DALL-E 2。它將擴(kuò)散模型用于模型的先驗(yàn)解釋器和產(chǎn)生最終圖像的解碼器。

數(shù)學(xué)原理

于所有圖像的空間中生成一張圖像

考慮圖像生成問題。令x代表一張圖,令p(x)為在所有可能圖像上的概率分布。若有p(x)本身,便可以肯定地說給定的一張圖的概率有多大。但這在一般情況下是難以解決的。

大多數(shù)時(shí)候,我們并不想知道某個(gè)圖像的絕對(duì)概率,相反,我們通常只想知道某個(gè)圖像與它的周圍相比,概率有多大:一張貓的圖像與它的小變體相比,概率哪個(gè)大?如果圖像里有一根、兩根或三根胡須,或者加入了一些高斯噪聲,概率會(huì)更大嗎?

因此,我們實(shí)際上對(duì)p(x)本身不感興趣,而對(duì)?x ln p(x)感興趣。這有兩個(gè)效果:

  • 其一,我們不再需要標(biāo)準(zhǔn)化p(x),而是可以用任何

    ~p(x)=Cp(x),其中C=∫~p(x)dx > 0是任意常數(shù),我們不需要去關(guān)心它。

  • 其二,我們正用p(x)/p(x+dx) = e^-〈?x ln p, dx〉比較p(x)的鄰居p(x+dx)

令分?jǐn)?shù)函數(shù)為是s(x):=?x ln p(x),然后考慮我們能對(duì)s(x)做什么。

實(shí)際上,s(x)允許我們用隨機(jī)梯度朗之萬動(dòng)力學(xué)從p(x)中取樣,這本質(zhì)上是馬爾可夫鏈蒙特卡洛的無限小版本。

學(xué)習(xí)分?jǐn)?shù)函數(shù)

分?jǐn)?shù)函數(shù)可通過加噪-去噪學(xué)習(xí)。

主要變體

分類指導(dǎo)器

假設(shè)我們希望不是從整個(gè)圖像的分布中取樣,而是以圖像描述為條件取樣。我們不想從一般的圖像中取樣,而是從符合描述“紅眼睛的黑貓”的圖片中取樣。一般來說,我們想從分布p(x|y)中取樣,其中x的范圍是圖像,y的范圍是圖像的類別(對(duì)y而言,“紅眼黑貓”的描述過于精細(xì),“貓”又過于模糊)。

從噪聲信道模型的角度來看,我們可以將這一過程理解如下:為生成可描述為y的圖像x,我們?cè)O(shè)想請(qǐng)求者腦海中真有一張圖像x,但它經(jīng)過多次加噪,出來的是毫無意義可言的亂碼,也就是y。這樣一來圖像生成只不過是推斷出請(qǐng)求者心中的x是什么。

換句話說,有條件的圖像生成只是“從文本語言翻譯成圖像語言”。之后,像在噪聲信道模型中一樣,我們可以用貝葉斯定理得到

也就是說,如果我們有一個(gè)包含所有圖像空間的好模型,以及一個(gè)圖像到類別的好翻譯器,我們就能“免費(fèi)”得到一個(gè)類別到圖像的翻譯器,也就是文本到圖像生成模型。

SGLD使用

其中?x ln p(x)是分?jǐn)?shù)函數(shù),如上所述進(jìn)行訓(xùn)練,用可微圖像分類器便可以找到?x ln p(y|x)。

溫度

分類器引導(dǎo)的擴(kuò)散模型會(huì)從p(x|y)中取樣,它集中在最大后驗(yàn)概率

周圍。如果我們想迫使模型向最大似然估計(jì)



的方向移動(dòng),可以用


其中β>0可解釋為逆溫度,在擴(kuò)散模型研究中常稱其為制導(dǎo)尺度(guidance scale)。較高的β會(huì)迫使模型在更靠近最大似然估計(jì)的分布中采樣。這通常會(huì)提高生成圖像的質(zhì)量。

這可以簡(jiǎn)單地通過SGLD實(shí)現(xiàn),即

無分類指導(dǎo)器

如果我們沒有分類器p(y|x),我們?nèi)钥梢詮膱D像模型本身提取一個(gè):

這樣的模型通常要在訓(xùn)練時(shí)提供(x, y)和(x, None),這樣才能讓它同時(shí)為?x ln p(x|y)和?x ln p(x)建模。

這是GLIDE、DALL-E和Google Imagen等系統(tǒng)的重要組成部分。

擴(kuò)散模型 / Diffusion model的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
北碚区| 永靖县| 周宁县| 太谷县| 张掖市| 小金县| 融水| 龙胜| 宝山区| 黑龙江省| 绍兴县| 曲松县| 于都县| 吉林市| 金川县| 鹿泉市| 南澳县| 福建省| 广丰县| 黑龙江省| 梅河口市| 荣成市| 南溪县| 永年县| 阿勒泰市| 望奎县| 南丰县| 常山县| 文安县| 宜阳县| 庐江县| 宜宾市| 北流市| 岑溪市| 夹江县| 信阳市| 上虞市| 上思县| 六盘水市| 宁武县| 句容市|