散文網(wǎng) » 生活 »日常 » Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”

2022-05-11 15:43 作者:brainnews--杏仁核學(xué)堂 0人讀過 | 我要投稿

本文由brainnews腦科學(xué)世界團(tuán)隊(duì)原創(chuàng)編譯，轉(zhuǎn)載請聯(lián)系授權(quán)。

近日，來自美國哈佛大學(xué)心理學(xué)系和腦科學(xué)中心的Samuel J. Gershman教授團(tuán)隊(duì)在Current Biology 雜志在線發(fā)表了題為“The role of state uncertainty in the dynamics of dopamine”的研究，提出了多巴胺（DA）斜坡挑戰(zhàn)了獎(jiǎng)勵(lì)預(yù)測誤差（RPE）的假設(shè)，在感覺反饋存在的情況下，沒有偏見的學(xué)習(xí)者將產(chǎn)生RPE斜坡。

基底節(jié)的強(qiáng)化學(xué)習(xí)模型將相位多巴胺信號(hào)映射到獎(jiǎng)勵(lì)預(yù)測錯(cuò)誤(RPE)。傳統(tǒng)模型證實(shí)，當(dāng)刺激預(yù)測有固定延遲的獎(jiǎng)勵(lì)時(shí)，延遲期間的多巴胺活動(dòng)應(yīng)該通過學(xué)習(xí)回收到基線。然而，最近的研究發(fā)現(xiàn)，在某些條件下，即使在學(xué)習(xí)之后，多巴胺在獎(jiǎng)勵(lì)之前也會(huì)上升，從而挑戰(zhàn)了傳統(tǒng)的模型。為了探究這些矛盾性的結(jié)果，作者設(shè)計(jì)了一個(gè)實(shí)驗(yàn)范式，將DA的價(jià)值和RPE解釋分開。

作者首先回顧TD學(xué)習(xí)算法，然后檢查狀態(tài)不確定性對價(jià)值學(xué)習(xí)的影響。在沒有狀態(tài)不確定性的情況下，每個(gè)狀態(tài)都映射到它的價(jià)值（圖1A）。另一方面，當(dāng)存在一些狀態(tài)不確定性時(shí)（迷宮上的紅色橢圓），動(dòng)物高估了價(jià)值（圖1B，紅點(diǎn)高于值函數(shù)）。在沒有反饋的情況下，單個(gè)狀態(tài)的狀態(tài)不確定性不會(huì)隨時(shí)間急劇變化，而感覺反饋減少了狀態(tài)不確定性（圖1C，1E）。

圖1 感覺反饋使價(jià)值學(xué)習(xí)產(chǎn)生偏差

作者接下來探究了存在感官反饋的價(jià)值學(xué)習(xí)。當(dāng)向反饋提供新的狀態(tài)時(shí)，價(jià)值學(xué)習(xí)將會(huì)進(jìn)行錯(cuò)誤校準(zhǔn)，因?yàn)槊總€(gè)價(jià)值點(diǎn)都將根據(jù)下一個(gè)值價(jià)值點(diǎn)的高估版本來學(xué)習(xí)（圖2A）。隨著隨后對此偏差的糾正，動(dòng)物將繼續(xù)高估每個(gè)點(diǎn)的RPE（RPE將上升；圖2D），以換取學(xué)習(xí)正確的價(jià)值函數(shù)（圖2C）。

圖2 存在反饋的無偏見學(xué)習(xí)會(huì)導(dǎo)致RPE斜坡

Schultz發(fā)現(xiàn)在學(xué)習(xí)之后，相位DA對預(yù)測獎(jiǎng)勵(lì)(R)的反應(yīng)減少，而是開始出現(xiàn)在最早的獎(jiǎng)勵(lì)預(yù)測線索中（條件刺激，CS）。作者的結(jié)果也證實(shí)，在沒有感覺反饋的情況下，RPE收斂到零（圖3A,3B）。

前人研究發(fā)現(xiàn)DA信號(hào)在單次試驗(yàn)過程中的學(xué)習(xí)良好的導(dǎo)航任務(wù)期間出現(xiàn)斜坡，而作者也提出在存在感覺反饋的情況下，RPE會(huì)跟蹤估計(jì)值函數(shù)的形狀（圖3C,3D）。

圖3 反饋的差異導(dǎo)致不同的RPE行為

在對DA的競爭觀點(diǎn)的直接測試中，作者設(shè)計(jì)了一系列實(shí)驗(yàn)來理清價(jià)值和RPE的關(guān)聯(lián)。作者在視覺虛擬現(xiàn)實(shí)任務(wù)中訓(xùn)練了頭部固定的老鼠，在這個(gè)任務(wù)中，它們虛擬地在一個(gè)場景中導(dǎo)航，最后獲得獎(jiǎng)勵(lì)。

作者發(fā)現(xiàn)當(dāng)小鼠從不同的位置被傳送到相同的終點(diǎn)時(shí)，產(chǎn)生了較大的DA反應(yīng)，并隨著傳送的大小而增大。在瞬間跳向獎(jiǎng)勵(lì)時(shí)，RPE非常大，并且隨著更大的跳躍而增加。在暫停期間，RPE降為零，但當(dāng)導(dǎo)航恢復(fù)時(shí)，RPE迅速增加（圖4A,4B）。

當(dāng)小鼠從不同的地點(diǎn)以相同的幅度被傳送時(shí)，產(chǎn)生了較大的DA反應(yīng)，并在靠近獎(jiǎng)勵(lì)的地方增大了大小。固定大小的瞬時(shí)隱形傳輸在距離獎(jiǎng)賞更近的地方會(huì)產(chǎn)生更大的RPE（圖4C,4D）。上述結(jié)果表明，DA的價(jià)值解釋與RPE假設(shè)做出了截然不同的預(yù)測，然后證明DA行為與RPE一致，而不是與價(jià)值一致。

圖4 RPE行為在各種任務(wù)操作下匹配DA響應(yīng)

接下來，作者團(tuán)隊(duì)尋求開發(fā)一種實(shí)驗(yàn)范式，可以將基于不確定性的模型與傳統(tǒng)模型區(qū)分開來。作者在視覺場景逐漸變暗的試驗(yàn)中早期和晚期檢查RPE行為，假定在試驗(yàn)過程中減少了感官反饋。

正如作者的框架所預(yù)測的那樣，當(dāng)實(shí)驗(yàn)過程中場景變暗時(shí)，DA顯示出一種“凹凸不平”或先上升后下降的趨勢。此外，在場景亮度保持高的情況下，斜坡階段的信號(hào)幅度總體上大于相應(yīng)斜坡的幅度（圖5）。

圖5 狀態(tài)不確定性模型預(yù)測變暗實(shí)驗(yàn)中的DA響應(yīng)

總結(jié)

綜上所述，在這項(xiàng)工作中，作者證明了感覺反饋導(dǎo)致無偏見的學(xué)習(xí)者產(chǎn)生RPE斜坡。作者的模型預(yù)測，當(dāng)反饋在試驗(yàn)過程中逐漸減少時(shí)，多巴胺的活性應(yīng)該類似于一個(gè)“凸起”，而且，它的上升階段應(yīng)該比反饋保持高的情況下的階段更大。作者在不同亮度的虛擬導(dǎo)航任務(wù)中訓(xùn)練小鼠，兩種預(yù)測都得到了經(jīng)驗(yàn)上的觀察。

總之，作者的理論和實(shí)驗(yàn)結(jié)果調(diào)和了在RPE假說下關(guān)于多巴胺行為的似乎相互矛盾的數(shù)據(jù)。

參考文獻(xiàn)

Mikhael JG, Kim HR, Uchida N, Gershman SJ. The role of state uncertainty in the dynamics of dopamine. Curr Biol. 2022 Mar 14;32(5):1077-1087.e9. doi: 10.1016/j.cub.2022.01.025. Epub 2022 Feb 2. PMID: 35114098.

編譯作者：Leo Ray（brainnews創(chuàng)作團(tuán)隊(duì)）

校審：Simon（brainnews編輯部）

編譯如果有誤，請及時(shí)留言溝通。

標(biāo)簽：

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”

本文作者的其他文章

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Current Biology：挑戰(zhàn)學(xué)習(xí)過程中經(jīng)典的“多巴胺假說”的評論 (共條)