Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念

2022-12-19 19:03 作者:brainnews--杏仁核學堂 0人讀過 | 我要投稿

學會根據(jù)環(huán)境線索預測獎賞對生存至關重要。人們認為，動物通過在結果偏離預期時更新預測來學習預測獎賞，而這種獎賞預測錯誤（RPEs）是由學習的關鍵控制者中腦邊緣多巴胺系統(tǒng)發(fā)出的信號。然而，動物還可以通過學習獎勵的回溯原因來推斷預測，而不是從RPEs中學習前瞻性預測。

簡單的說，如果動物知道它剛剛收到的刺激是有意義的（例如，獎勵），它可以回顧記憶來推斷其原因。鑒于多巴胺在學習中的中心作用，多巴胺可能會引導回溯性因果學習，而不是傳遞RPE。

近日，美國加利福尼亞大學神經(jīng)病學系Vijay Mohan K Namboodiri助理教授研究團隊在Science上發(fā)表研究，開發(fā)了一種用于回顧性因果學習的算法，發(fā)現(xiàn)中邊緣多巴胺的釋放傳遞了因果關聯(lián)，而不是RPE，從而挑戰(zhàn)了獎賞學習中的主導理論。重塑了聯(lián)想學習的概念和生物學框架。

回顧性因果學習算法

學習前瞻性預測的一個簡單方法是，每當提示后的結果偏離預測時，更新預測[Fig.1A,B]。這種違反獎賞預測的行為通常被稱為獎賞預測錯誤（RPEs）。時間差強化學習（TDRL）模型擴展了Rescorla Wagner模型，以解釋線索結果延遲，是最廣泛接受的獎勵學習模型。

TDRL RPE已成為多巴胺作為行為學習關鍵調(diào)節(jié)器的主導理論。研究人員提出了一種因果推斷算法，該算法通過測量線索是否比偶然預期更先于獎賞，從而來推斷線索是否是獎勵的原因[Fig.1C]。

Figure 1 一種揭示環(huán)境中因果關聯(lián)的算法

未預測獎賞測試

本研究算法提出，有意義的因果目標通過調(diào)整后的因果關系凈偶然性（ANCCR）來發(fā)出信號。因此，RPE假說預測多巴胺對蔗糖的反應會隨著重復經(jīng)歷而減少，而ANCCR假說則預測反應會增加。

結果觀察到的中腦邊緣多巴胺釋放與ANCCR一致，但與RPE不一致[Fig.2D,E]。每只動物都表現(xiàn)出增加的蔗糖反應，達到高陽性漸近線。這與RPE完全不一致：因為RPE是收到的和預測的獎勵之間的差異，它不能高于未預測的獎勵。

Figure 2 多巴胺對非預期回報的反應動力學與ANCCR一致，但與TDRL RPE不一致

線索獎勵學習測試

在線索獎勵學習過程中，RPE和ANCCR都預測多巴胺對線索的反應在學習早期會很低，而在學習后期會很高。結果發(fā)現(xiàn)學習期間觀察到的多巴胺能動力學與ANCCR一致，但與RPE不一致：早在動物表現(xiàn)出預期舔之前，多巴胺對CS+的反應就很明顯[Fig.3A,B]。

接下來測試了學習線索獎勵關聯(lián)的消失。學習聯(lián)想的消失不會導致原始聯(lián)想的消失。TDRL在消散后學習到零線索值，從而預測多巴胺能線索反應將隨著行為學習而減少到零。而ANCCR與RPE所預測的不同，在動物停止對線索的行為反應后，多巴胺線索反應仍然顯著積極[Fig.3J-L]。

Figure 3 線索獎賞學習期間多巴胺反應的動力學與ANCCR一致，但與TDRL RPE不一致

測試中的反向傳播

TDRL RPE的一個關鍵假設是多巴胺反應驅(qū)動前一狀態(tài)的價值學習。研究人員測試了這一中心假設的三個預測。第一個是，在獲得微量條件反射的過程中，多巴胺的反應從獎勵前一刻開始系統(tǒng)性地反向傳播。與TDRL RPE不同，ANCCR不進行這樣的預測，因為ANCCR中的延遲周期沒有被分解成狀態(tài)[Fig.4A]。

第二個是，在順序調(diào)節(jié)期間（cue1預測 cue2預測獎勵），多巴胺反應首先增加到cue2，然后增加到cue1。ANCCR反而預測，當?shù)弥猚ue2是由cue1引起的時，多巴胺對兩種線索的反應會一起增加，隨后會分化[Fig.4C]。

第三個，在連續(xù)條件調(diào)節(jié)期間，人為地抑制cue2釋放多巴胺以獲得獎勵，將阻止cue1反應的學習。相反，在ANCCR中抑制cue2反應只會阻止cue1-cue2關聯(lián)學習，并且不阻止cue1響應的學習[Fig.4E-H]。

Figure 4 學習期間多巴胺信號無反向傳播

結論

NAcc中中腦邊緣多巴胺釋放的動力學在大量實驗中與TDRL RPE不一致，但仍與因果學習算法一致。這里提出的算法通過測試刺激是否先于偶然預期的獎勵，并將這種關聯(lián)轉(zhuǎn)換為預期預測。

參考文獻：

Jeong, Huijeong et al. “Mesolimbic dopamine release conveys causal associations.” Science (New York, N.Y.), eabq6740. 8 Dec. 2022, doi:10.1126/science.abq6740

編譯作者：Young（brainnews創(chuàng)作團隊）

校審：Simon（brainnews編輯部）

標簽：

我喜歡()

本文作者的其他文章

Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念的評論 (共條)

分享到微博請遵守國家法律

brainnews--杏仁核學堂
 發(fā)短消息
 關注TA

你可能也喜歡這些文章

上證50股指期權當天怎么買賣？可以T+0雙向交易嗎？
英特爾 13 代酷睿 P 系列處理器核顯規(guī)格不變，GPU 頻率提升
2023年考三輪車駕照多少錢三輪車駕照報名費用
【丹莫圖書館】　·　第二次阿卡維爾入侵
[吃刀警告]希望你能來探望我【喇叭的公主連結漫畫8期】
【彈彈堂】三句話算出你的高差，有點手殘
跟著日本中學道德課文學日語：嫌われるのを恐れる気持ち
記錄三餐12-19 今天休息了一下
因為信賴值超過200%而壞掉了的干員們（能天使篇）
集裝箱信息識別及鉛封號識別免費，飛瞳引擎全球三千+企業(yè)使用，集裝箱號識別率99.98%

最新發(fā)布的文章

農(nóng)發(fā)行河津市支行做好年終決算工作
農(nóng)發(fā)行河津市支行持續(xù)加強反洗錢工作管理
農(nóng)發(fā)行河津市支行扎實做好安保工作
農(nóng)發(fā)行河津市支行組織開展憲法主題宣傳活動
農(nóng)發(fā)行河津市支行開展"挺膺擔當，強國復興"主題團日活動
年終總結2023，布局2024，挑一個目標置頂一整年！
12月20日維護結束，冰雪嘉年華開啟！
2023掃文—高熱不止 by 黃昏密度
Dive 55 工作的平衡
時尚 | 時尚趨勢是如何做出來的？
三星 Galaxy S24 Ultra，HP2SX兩億像素主攝，驍龍8Gen3超頻版，鈦合金機身，類2K直屏
重慶TOP DECK超牌12月16日游戲王OCG積分賽環(huán)境戰(zhàn)報
致命公司多人聯(lián)機mod，漢化游戲下載使用安裝教學！
致命公司多人mod，超全MOD模組管理器
戰(zhàn)網(wǎng)下載卡在45%登錄失敗提示2045報錯/戰(zhàn)網(wǎng)一鍵下載注冊教程！

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念

回顧性因果學習算法

未預測獎賞測試

線索獎勵學習測試

測試中的反向傳播

結 論

本文作者的其他文章

Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念

結論

Science：挑戰(zhàn)傳統(tǒng)理論，重塑聯(lián)想學習概念的評論 (共條)