AIGC: Composable Diffusion Models 筆記
Energy Based Models
EBM (Energy Based Models) 本質上是一個有關數(shù)據(jù)的概率分布,其中包括一個能量函數(shù)??. 這個能量函數(shù)我們可以用一個神經網絡去代表它(但不限于神經網絡)。
然后,我們有?. 這個"概率分布"
是沒有經過標準化(normalization)的(對 x 的積分不為1)。我們可以讓它除以一個
?使其標準化,但是這個積分通常是求不出來的,而且也不在我們這次的考慮范圍內。
從??我們可以看出,如果 x 取自于原數(shù)據(jù)的分布(比如說,原數(shù)據(jù)是一堆蘋果的圖片,x 也是蘋果的圖片),那么?
?應該是一個比較大的值,換言之,
應該是一個比較小的值。反之亦然。
當我們有了如上的能量函數(shù)以后,我們可以利用朗之萬動力學(Langevin dynamics)對其進行采樣:
現(xiàn)在,假設我們有一系列的特征?(比如說長相、膚色、發(fā)色等等), 我們針對每一個特征,都訓練了其相應的能量函數(shù)?
. 當我們要組合這些特征時(Conjunction),我們可以直接把相應的"概率分布"相乘:
所以我們對應的采樣公式為:
除了組合這些特征以外,我們還有“或”運算:
和“非”運算:
Composing Diffusion Models
我們發(fā)現(xiàn),擴散模型和 EBM 在采樣上有很多相似之處,那么,我們是不是可以把上面的架構借用到擴散模型上呢。這里論文認為,由于 ?和
有著相似的作用,所以去噪過程的公式:
和上面的朗之萬公式是等價的。
這里論文中列舉了兩種運算,首先是“與”運算(AND):
對兩邊取對數(shù)后對 x 計算梯度,根據(jù)??我們有:
然后是“非”運算(NOT):
最后,迭代的方式即:

完。
B站公式編輯器經常抽風,如果遇到 tex parse error?之類的錯誤時,刷新一下頁面一般就能解決。