Frontiers:大腦感覺、運動和認(rèn)知功能耦合神經(jīng)過程的時間結(jié)構(gòu)
01 一種用于強化時序控制的神經(jīng)網(wǎng)絡(luò)模型
當(dāng)空間可能性無限時,人類和動物如何進(jìn)行試錯學(xué)習(xí)?在之前的一項研究中,我們使用了間隔時間生產(chǎn)任務(wù)探究這一問題,并發(fā)現(xiàn)了一種更新策略,執(zhí)行者在該策略中會通過調(diào)整行為和神經(jīng)信號噪聲以進(jìn)行探索。在本項實驗中,人類受試者將主動產(chǎn)生一系列定時運動輸出,根據(jù)其時間準(zhǔn)確性,在每次響應(yīng)后受試者將收到正性或負(fù)性的反饋。我們發(fā)現(xiàn)序列運動時間在兩個時間尺度上有所不同:由于記憶漂移而導(dǎo)致的目標(biāo)間隔的長期相關(guān)性和根據(jù)反饋對計時可變性的短期調(diào)整。
圖1.實驗設(shè)計。
我們之前的研究已經(jīng)用增強高斯過程描述了時間可變性的這兩個關(guān)鍵特征,稱為獎勵敏感高斯過程 (reward-sensitive Gaussian process,RSGP)。簡而言之,時間變量的時間協(xié)方差根據(jù)反饋歷史更新,以重新創(chuàng)建上述兩個行為特征。然而,RSGP 主要是描述性的模型,缺乏關(guān)于神經(jīng)回路如何使用獎勵反饋來調(diào)整運動變異性的神經(jīng)生物學(xué)基礎(chǔ)。在本項研究中,我們提供了一個機制模型,并通過遞歸神經(jīng)網(wǎng)絡(luò) (recurrent neural networks,RNN) 的架構(gòu)來模擬該過程。
圖2.模型和人類行為
我們的模型能夠在貝葉斯框架中遞歸生成包含內(nèi)部可變性和外部強化的輸出序列。與其他神經(jīng)網(wǎng)絡(luò)模型不同,其他神經(jīng)網(wǎng)絡(luò)模型會搜索獨特的網(wǎng)絡(luò)連通性以實現(xiàn)模型預(yù)測和觀察之間的最佳匹配,該模型可以估計與每個結(jié)果相關(guān)的不確定性,因此在區(qū)分可調(diào)整的任務(wù)相關(guān)可變性和無法解釋的可變性方面做得更好。本研究所提出的人工神經(jīng)網(wǎng)絡(luò)模型與神經(jīng)系統(tǒng)中的信息處理機制并行,可以擴展連續(xù)狀態(tài)控制中類腦強化學(xué)習(xí) (reinforcement learning,RL) 的框架。
參考文獻(xiàn):Wang J, El-Jayyousi Y, Ozden I. A neural network model for timing control with reinforcement. Front Comput Neurosci. 2022 Oct 5;16:918031. doi: 10.3389/fncom.2022.918031. PMID: 36277612; PMCID: PMC9579423.
02 突顯刺激的感官間注意捕獲的時空神經(jīng)動力學(xué):大尺度聽覺視覺建模研究
內(nèi)源性(自上而下)和外源性(自下而上)注意力時空動力學(xué)特征的神經(jīng)機制,以及在感官知覺中注意力是如何控制或分配的,目前尚不完全清楚。我們使用短時記憶的視覺-聽覺對象處理的生物現(xiàn)實大尺度神經(jīng)網(wǎng)絡(luò)模型探究了這些問題。
圖3. 大尺度聽覺視覺神經(jīng)模型的網(wǎng)絡(luò)圖
圖4. 聽覺DMS試驗中模擬選定模塊中所有興奮性神經(jīng)元的神經(jīng)活動
在本研究中,我們對用于控制內(nèi)源性和外源性注意力的隨時間變化的神經(jīng)機制進(jìn)行建模,并將其納入視覺-聽覺對象處理模型。該模型成功執(zhí)行了各種雙峰工作記憶任務(wù),并產(chǎn)生了與實驗結(jié)果一致的模擬行為和神經(jīng)結(jié)果。此外,在視覺-聽覺雙模態(tài)模擬中,我們發(fā)現(xiàn)在一種模態(tài)中增加工作記憶負(fù)載會減少對另一種模態(tài)的干擾,并且基于本模型提出了一種可能的調(diào)節(jié)這種效果的網(wǎng)絡(luò)。
參考文獻(xiàn):Liu Q, Ulloa A, Horwitz B. The Spatiotemporal Neural Dynamics of Intersensory Attention Capture of Salient Stimuli: A Large-Scale Auditory-Visual Modeling Study. Front Comput Neurosci. 2022 May 12;16:876652. doi: 10.3389/fncom.2022.876652. PMID: 35645750; PMCID: PMC9133449.
03 在猴子的目標(biāo)搜索任務(wù)上測試動態(tài)狀態(tài)空間的強化學(xué)習(xí)模型:學(xué)習(xí)任務(wù)事件的擴展
學(xué)習(xí)是生物系統(tǒng)適應(yīng)環(huán)境的重要基礎(chǔ)。環(huán)境包括各種狀態(tài)或情節(jié)(episode
),而情節(jié)相關(guān)的學(xué)習(xí)對于適應(yīng)這種復(fù)雜情況至關(guān)重要。在本研究中,我們開發(fā)了一個模型來學(xué)習(xí)靈長類動物生理實驗中使用的雙目標(biāo)搜索任務(wù)。在本任務(wù)中,執(zhí)行者需要注視四個呈現(xiàn)的光點之一。相鄰的兩個點交替作為正確目標(biāo),連續(xù)成功一定次數(shù)后切換正確目標(biāo)對。
圖5.目標(biāo)搜索任務(wù)
圖6. 隨著訓(xùn)練進(jìn)行的模型運行示意圖
為了使執(zhí)行人以高概率獲得獎勵,需要根據(jù)前兩次試驗的行動和結(jié)果做出決定,我們在這里提出了一種“歷史情節(jié)架構(gòu)(history-in-episode architecture)”。具體來說,我們將狀態(tài)分為情節(jié)和歷史,并根據(jù)每個情節(jié)中的歷史選擇動作。當(dāng)我們將所提出的包含動態(tài)狀態(tài)空間的模型與傳統(tǒng)的 SARSA 方法在雙目標(biāo)搜索任務(wù)中進(jìn)行比較時,前者的表現(xiàn)接近理論最優(yōu)。強化學(xué)習(xí)模型包括所提出的歷史事件架構(gòu)和動態(tài)狀態(tài)景觀,可實現(xiàn)事件相關(guān)學(xué)習(xí),并為高度適應(yīng)復(fù)雜環(huán)境的學(xué)習(xí)系統(tǒng)提供基礎(chǔ)。
參考文獻(xiàn):Sakamoto K, Yamada H, Kawaguchi N, Furusawa Y, Saito N, Mushiake H. Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Extension to Learning Task Events. Front Comput Neurosci. 2022 Jun 2;16:784604. doi: 10.3389/fncom.2022.784604. PMID: 35720772; PMCID: PMC9201426.