【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(21)——離大譜,腦信號還原圖像?
大家好,今天我被一篇論文震驚一整年:

這篇文章做了什么呢?簡單來說,就是從我們的腦信號中還原出了圖像,部分結(jié)果如下:

實驗是把原始圖像(上面一排)給被試看,記錄下他們的腦信號,然后還原出下面一排的圖像。這個結(jié)果已經(jīng)很驚艷了。恰巧我本科是學過腦科學的,所以講這篇論文倒不太需要太多事先準備,看能不能趕在其他自媒體講之前搶個先手。

1.談談腦
我不是醫(yī)學生哈,如果有專業(yè)人士路過請輕噴,智能系的腦科學畢竟學的很淺。
簡單來說,我們大腦對視覺的處理還是蠻復雜的。大腦上有很多和視覺相關的皮層,不同的皮層所起到的作用是不一樣的,并且是分級的。當你的視網(wǎng)膜上出現(xiàn)圖像的時候,信號最先給到低級視覺皮層,之后一級級處理,到了高級視覺皮層,大腦就能從視覺圖像得到一些新的東西,例如一些認知(例如哪里有只狗)或者指揮行動的信號(有東西朝你飛過來你會下意識閃避)。當然,這個過程比我描述的可復雜多了。
大腦在活動的時候會產(chǎn)生很多信號,例如腦電信號,不同的信號有其不同的作用。本文研究的是fMRI信號,和核磁共振相關,簡單理解成腦信號即可(畢竟其實對后續(xù)理解的關系不大)。從fMRI信號還原出圖像其實很早就有了,但是效果一直不理想。哎,這不最近Diffusion模型在AI繪畫屆殺瘋了嘛,所以這篇文章就用上Diffusion。

2.Diffusion模型
撇開噱頭,這個論文的研究還是有點東西的。我們還是來復習一下Diffusion模型。也可以去看之前的專欄:
【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(8)——Diffusion

如圖所示,這是一個Latent Diffusion模型(具體的模型我不是太懂,畢竟不做視覺,但還是講講Diffusion基本思路),分為兩部分,上面可以看做是編碼器,下面可以看成是解碼器。
上面(編碼器)所做的工作是把一個真實圖片X經(jīng)過一系列步驟得到一個向量。這個步驟叫做diffusion,簡要來說就是逐步給圖片加噪聲(這里是對編碼后的圖片加噪聲),或者說,把圖片整的面目全非
下面(解碼器)所做的工作是從一個向量到圖片,簡單來說就是把面目全非的模型一步步還原成原本的樣子。當然這一步多了一個步驟,就是增加文本信息。畢竟大家也都知道很多Diffusion模型都是輸入文字生成圖片的。這里的τ來源于CLIP的編碼器,關于CLIP的內(nèi)容見:
【花師小哲】當代煉金術(神經(jīng)網(wǎng)絡)前沿(20)——CLIP:打破原圖片分類范式
(真的非常巧,CLIP我前兩天剛剛看的,于是看著一篇也不需要提前做功課了)

3.怎么把腦信號扔進去
下一步要做的就是把原始模型中的某些部分用腦信號替換掉了,如下:

(i)第一步其實就是用傳統(tǒng)方法從低級視覺皮層的腦信號中還原出一副粗糙的圖像,將這幅圖像當做是編碼器的輸入
(ii)第二步就是直接用Diffusion模型的編碼器,得到一個輸出
(iii)將整個輸出給Diffusion模型的解碼器,文本部分用高級視覺皮層的腦信號來代替,這樣就可以還原出一張圖片
整體來看思路還是挺合理的,畢竟低級視覺皮層一般會保留視覺的原本信息,高級視覺皮層會保留更多的高階信息,可能和語言信息比較相近。

4.結(jié)語
這篇論文的研究當然不是為了好玩或噱頭,這是一篇研究機器視覺與人的視覺的聯(lián)系的很重要的文章,也有利于我們更好地理解人的視覺的處理過程。如果這一步我們搞得足夠清楚了,之后就可以更好地分析一些視覺障礙人士的病因并給他們提供幫助甚至治療。
當然,如果這技術被不懷好意的人利用其實還是挺危險的(例如從腦信號中還原出一些“秘密”)。
估計之后就會有人把Diffusion換成ChatGPT之類的并從腦信號中提取“人的思想”了,想想挺恐怖的。