【腦機(jī)接口論文分享】基于大腦信號(hào)重建圖像-1

本次要分享的論文是——通過潛在擴(kuò)散模型從大腦活動(dòng)中重建高分辨率圖像。

首先是論文背景。這篇文章發(fā)表于?CVPR?2023,公開日期是?2022?年?11月21日。作者來自于日本大阪大學(xué)前沿生物科學(xué)研究生院和日本信息通信研究機(jī)構(gòu)。論文研究的主要問題是從功能核磁共振圖像獲得的人腦活動(dòng)重建視覺圖像。
之所以選擇這篇文章進(jìn)行分享,是因?yàn)樗窃谀X機(jī)接口領(lǐng)域結(jié)合了AIGC大模型比較早期的作品,可以說最近比較火的工作都能看到他的影子。比如說這篇發(fā)表在 Nature?Neuroscience?上的來自德克薩斯大學(xué)的工作,發(fā)表日期是2023年5月1日,他通過非侵入式的功能核磁共振成像fMRI?收集大腦活動(dòng)信息,并將思維轉(zhuǎn)化成語言文字。還有這篇發(fā)表在?Nature?上的來自瑞士日內(nèi)瓦洛桑聯(lián)邦理工學(xué)院的工作,發(fā)表于5月3日,他解碼了通過電極探針獲得的小鼠視覺皮層活動(dòng),重建了小鼠正在觀看的視頻。
我認(rèn)為這幾項(xiàng)研究都有共同之處,所以選擇了這篇比較早期的文章進(jìn)行分享。

接下來我的分享將由兩個(gè)部分組成,分別是本文介紹和我在這個(gè)方向上的一些思考。其中,本文介紹的內(nèi)容包括相關(guān)工作、實(shí)驗(yàn)設(shè)計(jì)、結(jié)果及結(jié)論。我們的工作部分包括一個(gè)算法框架的初步設(shè)想,還有在這個(gè)框架下設(shè)計(jì)的應(yīng)用Demo展示。

計(jì)算機(jī)視覺的基本目標(biāo)是構(gòu)建能夠像人類視覺系統(tǒng)一樣看待和識(shí)別世界的人工系統(tǒng)。對大腦活動(dòng)的測量和深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,為用神經(jīng)網(wǎng)絡(luò)的方式解構(gòu)人腦提供了依據(jù)。這些工作包括了從大腦活動(dòng)中重建圖像和和研究人腦和神經(jīng)網(wǎng)絡(luò)計(jì)算過程間的對應(yīng)關(guān)系。
本篇文章不是研究人員嘗試從fMRI中重建圖像的第一次嘗試,在此之前,人們就從大腦活動(dòng)中重建視覺刺激,重建刺激語義內(nèi)容,重建想象內(nèi)容和重建感知的情緒等方面展開了相應(yīng)的研究。比如,在2011年,來自伯克利的研究人員就嘗試使用功能和磁共振成像和計(jì)算模型,重建大腦的動(dòng)態(tài)視覺圖像。如圖所示,左圖是原始視頻,右邊是從大腦活動(dòng)中重建的視頻??梢哉f,研究者重現(xiàn)了人類大腦看過的片段,但是幾乎無法辨認(rèn)。一部分原因是當(dāng)時(shí)深度學(xué)習(xí)還沒有流行起來,導(dǎo)致算法重建能力較差。
近年來,研究人員嘗試使用GAN和自監(jiān)督學(xué)習(xí)等方法通過fMRI重建視覺圖像。最近的研究使用語義內(nèi)容作為輔助輸入,提高了語義保真度。但是由于大腦相關(guān)數(shù)據(jù)量少,且訓(xùn)練復(fù)雜的生成模型較為困難,上述研究都存在一定的局限性。

最近,擴(kuò)散模型在生成任務(wù)上取得了優(yōu)異的效果。該模型的一個(gè)典型的應(yīng)用是給定文字,生成相應(yīng)的圖像。在這個(gè)任務(wù)上最火爆的模型無疑是由?Stability AI?推出的stable?diffusion。該項(xiàng)技術(shù)使用到的 LDM?模型在語義保真度和圖像分辨率上都取得了很好的效果。
如右圖所示,LDM是一種概率生成模型。在數(shù)據(jù)處理階段,該模型通過使用圖像編碼器,提取數(shù)據(jù)集圖片特征,并對特征不斷加噪得到相應(yīng)的標(biāo)簽。模型任務(wù)是使用加噪后的特征zt生成想要的圖像,通過迭代去噪將高斯噪聲中的采樣變量恢復(fù)為學(xué)習(xí)數(shù)據(jù)分布的樣本。由于本應(yīng)用要實(shí)現(xiàn)文生圖的操作,因此在解碼階段混入了文字信息進(jìn)行聯(lián)合訓(xùn)練。
本文能想到使用?stable?diffusion?進(jìn)行訓(xùn)練還有一個(gè)原因就是他在2021年進(jìn)行了開源,本研究直接使用了該模型的?1.4?版本。

數(shù)據(jù)集部分,本實(shí)驗(yàn)使用的?NSD?大規(guī)模fMRI數(shù)據(jù)集由明尼蘇達(dá)磁共振研究中心提供。該數(shù)據(jù)集包括受試者看到的圖像 和 對應(yīng)時(shí)間使用 fMRI?記錄下的大腦活動(dòng),該數(shù)據(jù)集包含了八名被試。本作者使用了其中四名受試的數(shù)據(jù)。每個(gè)受試的樣本量為27750對,使用2770對作為測試集,剩下的24980對作為訓(xùn)練集。由于相同圖像每個(gè)人會(huì)看三次,所以測試集中對相同圖像的三次實(shí)驗(yàn)取了平均值。

在實(shí)驗(yàn)設(shè)計(jì)方面,本文從解碼器和編碼器兩種思路展開實(shí)驗(yàn)設(shè)計(jì)。在解碼器部分,作者研究了如何從fMRI中重建圖像。在編碼器部分,作者研究了如何從LDM模型中的各種組件中,恢復(fù) fMRI測量的大腦活動(dòng),即全腦體素信息。

具體而言,解碼器的運(yùn)算步驟為:首先由fMRI信號(hào)預(yù)測用于生成圖像的潛在表示z。z通過LDM的解碼器得到圖像 xz,作為后續(xù) LDM?完整訓(xùn)練流程中的圖片數(shù)據(jù)。將xz圖片大小調(diào)整到步驟二中訓(xùn)練所需大小,用LDM編碼器處理xz,通過擴(kuò)散過程為其添加噪聲。用腹側(cè)視覺皮層fMRI信號(hào)預(yù)測文本的潛在表示c。和圖像的潛在表示zt作為U-Net輸入產(chǎn)生zc,zc通過解碼器生成重建圖像。
實(shí)驗(yàn)中的一些具體細(xì)節(jié)包括:使用L2正則化線性回歸,模型針對每個(gè)受試構(gòu)建,使用5倍交叉驗(yàn)證搜索正則化參數(shù),作為對照組,僅使用z或c生成圖像等。
評估指標(biāo)包括客觀的感知相似性度量PSMs,和主觀的人工評價(jià),由評分員針對生成圖像對原始圖像的相似度,做出6個(gè)擋位的打分。

對于第二種實(shí)驗(yàn)思路,如何進(jìn)行由LDM組分到fMRI大腦活動(dòng)的全腦體素建模,作者從四個(gè)方面設(shè)置了模型。首先,建立了線性模型,從LDM的三個(gè)潛在表示z,zc和c預(yù)測體素活動(dòng)。即,對潛在表示進(jìn)行比較。由于這種設(shè)置下,z和zc對體素預(yù)測較為相似,作者又設(shè)置了實(shí)驗(yàn)二,將z和zc放到同一個(gè)模型中,探究不同的噪聲級別對這兩個(gè)特征生成效果的影響。實(shí)驗(yàn)三探究了zc在去噪過程中如何變化,從去噪早期,中期和后期提取zc,構(gòu)建于實(shí)驗(yàn)二中z像結(jié)合的模型,將其獨(dú)立方差映射到大腦皮層上。實(shí)驗(yàn)四探究了LDM中最后一個(gè)黑盒,U-Net特征的獨(dú)立方差。
評估方式就是各LDM組分對大腦體素的預(yù)測結(jié)果和原始fMRI信號(hào)之間的相關(guān)系數(shù)和獨(dú)立方差。
(介紹未完待續(xù),請見下一篇文章)