最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(10)——Diffusion是記憶者?

2023-02-01 19:12 作者:花師小哲-中二  | 我要投稿

AI繪畫的突然爆火離不開Diffusion模型,這是近兩年興起的圖像生成技術(shù),關(guān)于Diffusion模型在之前的專欄介紹過:

【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(8)——Diffusion

當然,本篇專欄也會再介紹其中的一些內(nèi)容,所以可以不用急著跳轉(zhuǎn)。

近期,一篇新論文試圖證明一件事:“Diffusion模型對訓練集有著很好的記憶力”。雖然單一篇論文的說服力不一定足夠,但可以預想到之后會有相關(guān)研究跟進。這可能會為當今對AI繪畫的討論產(chǎn)生一定的積極影響,不過我個人還是不太想摻和這個話題的深入討論。本篇還關(guān)注了由此可能帶來的計算機安全問題。

1.本篇的目的

本篇論文的目的其實非常簡單,即從Diffusion模型中提取出訓練集的圖片。

提取圖片

我們知道,現(xiàn)有的很多AI繪畫都是通過輸入文字或標簽等來生成圖像,而生成這些圖片的模型都是需要訓練的,或者說,有一個訓練集,這個集合中放有很多真實的照片。這就產(chǎn)生了一個問題,即模型生成的圖片是否是對訓練集圖片的拼接,這個問題非常復雜(要是有定論關(guān)于AI繪畫就不會吵的沸沸揚揚了)。

而本篇論文說明Diffusion模型確實對訓練集有很好的記憶能力。這雖然距離回答上述問題還差一些步驟,但也算是為回答這個問題給出了一條有力的論據(jù),關(guān)于這個話題就不展開講。

像這樣的難以回答的問題在當今AI領(lǐng)域,或者說神經(jīng)網(wǎng)絡(luò)領(lǐng)域是很常見的,即應(yīng)用遠先與理論,理論研究是很薄弱的。

2.Diffusion模型

在機器學習中有一個很常用的術(shù)語——過擬合。相信不少朋友對這個詞已經(jīng)不陌生了,這里也不過多說明(也可以翻找我之前的一些專欄)。

目前比較流行的圖像生成的模型是Diffusion,相比于傳統(tǒng)的GAN(之前專欄也寫過)和VAE等,Diffusion模型具有很好的效果,一個比較突出的優(yōu)點是——Diffusion可以生成和訓練集差別較大的圖片,生成圖片的豐富度一般是比GAN之類的更好一些的,這就使得之前大部分人認為,相比于GAN等,Diffusion模型實質(zhì)上是更加不容易過擬合。

由于我對VAE不是很熟,這里簡單說一下GAN(生成對抗模型)的情況。

GAN

GAN模型的思路是訓練兩個模型——“生成器”和“判別器”,生成器的輸入是隨機噪聲(目的是保證每次生成的圖像不一樣),生成的是圖像(假圖像),生成器的目的是為了生成像真圖像的圖像來騙過判別器;判別器的輸入是圖像,可以是假圖像,也可以是真圖像,判別器的目的就是判斷輸入圖像的真假。

這就產(chǎn)生了一個問題,一旦“判別器”過擬合,則“生成器”也會過擬合,這會導致“生成器”生成的圖像受訓練集的影響是非常大的。

而Diffusion則不同,Diffusion模型本質(zhì)上是一個除噪器。如圖:

Diffusion

Diffusion意為“擴散”,即我們對一張圖片逐步加噪聲(每次加一點),最終我們就識別不出這張圖。這個過程的反向操作就是“逆擴散”,即從噪聲中一步步去噪,恢復出一張完整的圖片。

我們看到,在這個過程中,Diffusion模型學習的是去噪技巧,只要這個技巧對于所有圖片,或者說大部分圖片都是有效的,那么過擬合問題似乎就沒有了(我都這么說了,那就說明隱患一定就有了)

然而這篇論文證明了,相比于GAN、VAE等,Diffusion有更強的記憶能力,更容易復原出訓練集圖片(確實有點道理,畢竟GAN的生成器是不直接從訓練集學習的)

3.學習者or記憶者?

如果是經(jīng)常讀AI論文的話,會發(fā)現(xiàn)很多著名的模型喜歡把自己的模型稱為learner(學習者),畢竟機器學習嘛,就是想辦法讓機器“學習”到某些東西。

例如,我們做一個貓狗識別,那我們就希望我們的模型學到“貓”和“狗”的不同之處。然而神經(jīng)網(wǎng)絡(luò)的問題是我們幾乎是很難解釋為什么模型能夠區(qū)分貓狗,或者說,區(qū)分貓狗的具體機制是什么。一般來說,我們會認為神經(jīng)網(wǎng)絡(luò)學習到了目前以人類的理論難以理解的一些高級特征

“學習”到什么一般是通過網(wǎng)絡(luò)模型和損失函數(shù)來控制的,效果也只能通過這些數(shù)值來觀測,模型具體學到了什么目前還是不得而知的

當下大模型(即參數(shù)異常龐大的神經(jīng)網(wǎng)絡(luò))比較火,例如ChatGPT就是大模型的一種。大模型擁有小模型不曾擁有的能力,這些能力究竟怎么來的就更麻煩了,所以目前主流觀點認為大模型強只是因為它們記住了所有的訓練集。

神經(jīng)網(wǎng)絡(luò)最終的走向只是“記憶者”嗎?這還不得而知。

4.機器學習中的計算機安全

讀完這篇論文,更應(yīng)該擔心的是隱私安全問題。這篇文章說明了對于Diffuion模型,一旦訓練集的文字或標簽泄露,則訓練集的圖片可能會泄露。這個風險還是有的。設(shè)想有人暴露你的圖片隱私,它可以用你的圖片訓練一個Diffusion模型,然后把模型和標簽給其他人,其他人用標簽一還原就可以得到這個隱私圖片,而中間的路徑是很難追蹤的。

機器學習中計算機安全一些大分類

當然,機器學習中計算機安全問題實質(zhì)上是非常多的,實際情況比上述例子可能要復雜多了。(計算機安全也是一個超級大坑了,我這種基礎(chǔ)博弈論都理解不來的人就不涉足了)

5.限制

這篇論文設(shè)定的場景某種程度上來講還是有些難以實現(xiàn)的,即我們需要知道訓練集的圖片的標題。正如上面那張Ann的圖片所示,你沒有Ann這個關(guān)鍵詞實質(zhì)上是無法從模型中提取出圖片的,而且你還需要和訓練集做比對才知道是否真的提取的是訓練集圖片。

不過已經(jīng)可以做一些應(yīng)用了,例如把自己的名字輸入一個Diffusion模型看是否能還原出自己的圖片(然而考慮到重名等因素,此方案在現(xiàn)實中可行性應(yīng)該不高,特別是一些開源模型應(yīng)該會做一些處理,也很好做,例如把生成的候選圖片中和訓練集相似度較高的圖片直接篩掉)。

而且目前公開的模型一般不太會用個人照片(畢竟一旦被控訴損失就大了),畢竟已經(jīng)有ImageNet等數(shù)據(jù)集了,出現(xiàn)的人物也多是公眾人物或接受隱私條款的人(當然,實際上到底會不會用涉及隱私的圖片我也不可能知道)

總體來說,還沒有那么危險,只是隱患是較大的。


【花師小哲】當代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(10)——Diffusion是記憶者?的評論 (共 條)

分享到微博請遵守國家法律
项城市| 新宾| 滦平县| 富阳市| 东阳市| 义乌市| 蕲春县| 云浮市| 浙江省| 孝义市| 互助| 宝应县| 太仆寺旗| 建水县| 四会市| 林口县| 苍溪县| 玛多县| 伊宁市| 余江县| 井冈山市| 隆尧县| 玛纳斯县| 青铜峡市| 安溪县| 纳雍县| 徐州市| 阳原县| 饶河县| 濮阳县| 延边| 伊通| 涟源市| 武汉市| 巫溪县| 哈巴河县| 阜宁县| 嵩明县| 安宁市| 宁晋县| 沁阳市|