Current Biology:挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”
本文由brainnews腦科學(xué)世界團(tuán)隊(duì)原創(chuàng)編譯,轉(zhuǎn)載請聯(lián)系授權(quán)。
近日,來自美國哈佛大學(xué)心理學(xué)系和腦科學(xué)中心的Samuel J. Gershman教授團(tuán)隊(duì)在Current Biology 雜志在線發(fā)表了題為“The role of state uncertainty in the dynamics of dopamine”的研究,提出了多巴胺(DA)斜坡挑戰(zhàn)了獎(jiǎng)勵(lì)預(yù)測誤差(RPE)的假設(shè),在感覺反饋存在的情況下,沒有偏見的學(xué)習(xí)者將產(chǎn)生RPE斜坡。
基底節(jié)的強(qiáng)化學(xué)習(xí)模型將相位多巴胺信號(hào)映射到獎(jiǎng)勵(lì)預(yù)測錯(cuò)誤(RPE)。傳統(tǒng)模型證實(shí),當(dāng)刺激預(yù)測有固定延遲的獎(jiǎng)勵(lì)時(shí),延遲期間的多巴胺活動(dòng)應(yīng)該通過學(xué)習(xí)回收到基線。然而,最近的研究發(fā)現(xiàn),在某些條件下,即使在學(xué)習(xí)之后,多巴胺在獎(jiǎng)勵(lì)之前也會(huì)上升,從而挑戰(zhàn)了傳統(tǒng)的模型。為了探究這些矛盾性的結(jié)果,作者設(shè)計(jì)了一個(gè)實(shí)驗(yàn)范式,將DA的價(jià)值和RPE解釋分開。
作者首先回顧TD學(xué)習(xí)算法,然后檢查狀態(tài)不確定性對價(jià)值學(xué)習(xí)的影響。在沒有狀態(tài)不確定性的情況下,每個(gè)狀態(tài)都映射到它的價(jià)值(圖1A)。另一方面,當(dāng)存在一些狀態(tài)不確定性時(shí)(迷宮上的紅色橢圓),動(dòng)物高估了價(jià)值(圖1B,紅點(diǎn)高于值函數(shù))。在沒有反饋的情況下,單個(gè)狀態(tài)的狀態(tài)不確定性不會(huì)隨時(shí)間急劇變化,而感覺反饋減少了狀態(tài)不確定性(圖1C,1E)。
圖1 感覺反饋使價(jià)值學(xué)習(xí)產(chǎn)生偏差
作者接下來探究了存在感官反饋的價(jià)值學(xué)習(xí)。當(dāng)向反饋提供新的狀態(tài)時(shí),價(jià)值學(xué)習(xí)將會(huì)進(jìn)行錯(cuò)誤校準(zhǔn),因?yàn)槊總€(gè)價(jià)值點(diǎn)都將根據(jù)下一個(gè)值價(jià)值點(diǎn)的高估版本來學(xué)習(xí)(圖2A)。隨著隨后對此偏差的糾正,動(dòng)物將繼續(xù)高估每個(gè)點(diǎn)的RPE(RPE將上升;圖2D),以換取學(xué)習(xí)正確的價(jià)值函數(shù)(圖2C)。
圖2 存在反饋的無偏見學(xué)習(xí)會(huì)導(dǎo)致RPE斜坡
Schultz發(fā)現(xiàn)在學(xué)習(xí)之后,相位DA對預(yù)測獎(jiǎng)勵(lì)(R)的反應(yīng)減少,而是開始出現(xiàn)在最早的獎(jiǎng)勵(lì)預(yù)測線索中(條件刺激,CS)。作者的結(jié)果也證實(shí),在沒有感覺反饋的情況下,RPE收斂到零(圖3A,3B)。
前人研究發(fā)現(xiàn)DA信號(hào)在單次試驗(yàn)過程中的學(xué)習(xí)良好的導(dǎo)航任務(wù)期間出現(xiàn)斜坡,而作者也提出在存在感覺反饋的情況下,RPE會(huì)跟蹤估計(jì)值函數(shù)的形狀(圖3C,3D)。
圖3 反饋的差異導(dǎo)致不同的RPE行為
在對DA的競爭觀點(diǎn)的直接測試中,作者設(shè)計(jì)了一系列實(shí)驗(yàn)來理清價(jià)值和RPE的關(guān)聯(lián)。作者在視覺虛擬現(xiàn)實(shí)任務(wù)中訓(xùn)練了頭部固定的老鼠,在這個(gè)任務(wù)中,它們虛擬地在一個(gè)場景中導(dǎo)航,最后獲得獎(jiǎng)勵(lì)。
作者發(fā)現(xiàn)當(dāng)小鼠從不同的位置被傳送到相同的終點(diǎn)時(shí),產(chǎn)生了較大的DA反應(yīng),并隨著傳送的大小而增大。在瞬間跳向獎(jiǎng)勵(lì)時(shí),RPE非常大,并且隨著更大的跳躍而增加。在暫停期間,RPE降為零,但當(dāng)導(dǎo)航恢復(fù)時(shí),RPE迅速增加(圖4A,4B)。
當(dāng)小鼠從不同的地點(diǎn)以相同的幅度被傳送時(shí),產(chǎn)生了較大的DA反應(yīng),并在靠近獎(jiǎng)勵(lì)的地方增大了大小。固定大小的瞬時(shí)隱形傳輸在距離獎(jiǎng)賞更近的地方會(huì)產(chǎn)生更大的RPE(圖4C,4D)。上述結(jié)果表明,DA的價(jià)值解釋與RPE假設(shè)做出了截然不同的預(yù)測,然后證明DA行為與RPE一致,而不是與價(jià)值一致。
圖4 RPE行為在各種任務(wù)操作下匹配DA響應(yīng)
接下來,作者團(tuán)隊(duì)尋求開發(fā)一種實(shí)驗(yàn)范式,可以將基于不確定性的模型與傳統(tǒng)模型區(qū)分開來。作者在視覺場景逐漸變暗的試驗(yàn)中早期和晚期檢查RPE行為,假定在試驗(yàn)過程中減少了感官反饋。
正如作者的框架所預(yù)測的那樣,當(dāng)實(shí)驗(yàn)過程中場景變暗時(shí),DA顯示出一種“凹凸不平”或先上升后下降的趨勢。此外,在場景亮度保持高的情況下,斜坡階段的信號(hào)幅度總體上大于相應(yīng)斜坡的幅度(圖5)。
圖5 狀態(tài)不確定性模型預(yù)測變暗實(shí)驗(yàn)中的DA響應(yīng)
總 結(jié)
綜上所述,在這項(xiàng)工作中,作者證明了感覺反饋導(dǎo)致無偏見的學(xué)習(xí)者產(chǎn)生RPE斜坡。作者的模型預(yù)測,當(dāng)反饋在試驗(yàn)過程中逐漸減少時(shí),多巴胺的活性應(yīng)該類似于一個(gè)“凸起”,而且,它的上升階段應(yīng)該比反饋保持高的情況下的階段更大。作者在不同亮度的虛擬導(dǎo)航任務(wù)中訓(xùn)練小鼠,兩種預(yù)測都得到了經(jīng)驗(yàn)上的觀察。
總之,作者的理論和實(shí)驗(yàn)結(jié)果調(diào)和了在RPE假說下關(guān)于多巴胺行為的似乎相互矛盾的數(shù)據(jù)。
參考文獻(xiàn)
Mikhael JG, Kim HR, Uchida N, Gershman SJ. The role of state uncertainty in the dynamics of dopamine. Curr Biol. 2022 Mar 14;32(5):1077-1087.e9. doi: 10.1016/j.cub.2022.01.025. Epub 2022 Feb 2. PMID: 35114098.
編譯作者:Leo Ray(brainnews創(chuàng)作團(tuán)隊(duì))
校審:Simon(brainnews編輯部)
編譯如果有誤,請及時(shí)留言溝通。