【腦機接口論文分享】基于大腦信號重建圖像-2

接下來討論實驗結(jié)果。對解碼器部分實驗,右圖展示了同一名受試視覺重建的效果,結(jié)果表明,僅使用z的重建圖像在視覺上(如材質(zhì)和輪廓)與原始圖像一致,僅使用c的重建圖像生成語義一致但視覺不一致的圖像,而使用zc重建的圖像在語義和視覺上均一致。

對于不同受試者的重建圖像而言,其質(zhì)量在不同受試間存在明顯差異,這與受試本身的數(shù)據(jù)質(zhì)量有關(guān)。對生成圖像質(zhì)量的評估表示,使用z生成的圖像在模型前幾層效果更好,使用c生成的圖像在模型后幾層效果更好,而使用混合了視覺信息和語義信息的zc生成的圖像對不同的評價指標(biāo)其值都普遍較高。

對于編碼器部分實驗。實驗一潛在表示之間的比較結(jié)果顯示,Z在視覺皮層后部分,即早期的視覺皮層產(chǎn)生了較高預(yù)測性能。而c在大范圍皮層中顯示了很高的預(yù)測性能。Zc和z有非常相似的表示。此圖使用的評估指標(biāo)為皮爾森相關(guān)系數(shù)。實驗二不同噪聲級別之間的比較結(jié)果表明,當(dāng)添加少量噪聲是,z比zc更好的預(yù)測整個皮層的體素活動,而增加噪聲水平后,zc比z能更好的預(yù)測較高視覺皮層內(nèi)的體素活動。

實驗三不同擴散階段之間的比較結(jié)果表明,在去噪過程的早期階段,z信號主導(dǎo)了fMRI信號的預(yù)測,而在去噪過程的后期zc比z更能預(yù)測高級視覺皮層的活動。

實驗四不同U-Net層之間的比較結(jié)果表明,在去噪的早期階段,U-Net的瓶頸層在整個皮層中產(chǎn)生最高的預(yù)測性能;隨著去噪的進展,U-Net的早期層對早期視覺皮層內(nèi)活動的預(yù)測起到了主導(dǎo)作用。

接下來是本文的研究結(jié)論。
本文提出了一種新的基于LDM的視覺重現(xiàn)方法,該方法不需要訓(xùn)練或微調(diào)復(fù)雜的深度學(xué)習(xí)模型,只需要從fMRI到LDM中的潛在表示的簡單線性映射。
通過解碼器部分實驗,對LDM如何結(jié)合文本語義信息生成圖像提出解釋。
在編碼器部分實驗,作者構(gòu)建了編碼模型對LDM的內(nèi)部組件進行了定量解釋,從神經(jīng)科學(xué)角度,解釋了LDM組件相對應(yīng)的大腦區(qū)域。

接下來是我對本實驗的一些后續(xù)思考:如何基于上述實驗框架,訓(xùn)練能有感情的作畫的機器。
該想法的理論基礎(chǔ)來自于通用人工智能研究院院長朱松純所提出的邁向通用人工智能的計算范式——人機價值對齊。
舉一個生活中的例子,說明價值對齊的意義:
如果人與人之間能夠長時間相處并保持情緒穩(wěn)定,說明他們有相同的價值體系。但是如果兩個人相處過程中無法保持情緒穩(wěn)定,就說明他們的價值體系出現(xiàn)了差異。人機協(xié)作也是這樣,如果協(xié)作過程中人類出現(xiàn)了較大的情緒波動,說明人類和機器的情緒價值沒有對齊。在這種情況下如果還想繼續(xù)合作的話,有一方必須做出讓步。在這里,我們選在對AI進行調(diào)整。


在這樣的理論指導(dǎo)下,設(shè)計了如下的用于人機情感價值對齊的計算框架:最開始通過有情緒標(biāo)簽的視頻誘發(fā)受試情緒,采集其腦電信號向?LDM?模型的文本特征?c?做映射。將其生成的圖像通過CLIP圖像編碼器,與視頻標(biāo)簽經(jīng)過的文本編碼器做相似度比對,判斷出的結(jié)果與上一時刻的情感標(biāo)簽計算隨損失,如果與上一時刻標(biāo)簽不同,則說明機器的繪畫結(jié)果導(dǎo)致了人類的情緒波動。這樣的話就需要對AI進行調(diào)整,即通過損失對模型權(quán)重W進行更新,從而實現(xiàn)實時人機情感價值對齊。
對應(yīng)平臺的演示視頻請見本賬號【腦機接口實驗】基于 Stable Diffusion 的情緒繪圖