最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Science:挑戰(zhàn)傳統(tǒng)理論,重塑聯(lián)想學習概念

2022-12-19 19:03 作者:brainnews--杏仁核學堂  | 我要投稿

學會根據(jù)環(huán)境線索預測獎賞對生存至關重要。人們認為,動物通過在結果偏離預期時更新預測來學習預測獎賞,而這種獎賞預測錯誤(RPEs)是由學習的關鍵控制者中腦邊緣多巴胺系統(tǒng)發(fā)出的信號。然而,動物還可以通過學習獎勵的回溯原因來推斷預測,而不是從RPEs中學習前瞻性預測。


簡單的說,如果動物知道它剛剛收到的刺激是有意義的(例如,獎勵),它可以回顧記憶來推斷其原因。鑒于多巴胺在學習中的中心作用,多巴胺可能會引導回溯性因果學習,而不是傳遞RPE。




近日,美國加利福尼亞大學神經(jīng)病學系Vijay Mohan K Namboodiri助理教授研究團隊在Science上發(fā)表研究,開發(fā)了一種用于回顧性因果學習的算法,發(fā)現(xiàn)中邊緣多巴胺的釋放傳遞了因果關聯(lián),而不是RPE,從而挑戰(zhàn)了獎賞學習中的主導理論。重塑了聯(lián)想學習的概念和生物學框架。





回顧性因果學習算法


學習前瞻性預測的一個簡單方法是,每當提示后的結果偏離預測時,更新預測[Fig.1A,B]。這種違反獎賞預測的行為通常被稱為獎賞預測錯誤(RPEs)。時間差強化學習(TDRL)模型擴展了Rescorla Wagner模型,以解釋線索結果延遲,是最廣泛接受的獎勵學習模型。


TDRL RPE已成為多巴胺作為行為學習關鍵調(diào)節(jié)器的主導理論。研究人員提出了一種因果推斷算法,該算法通過測量線索是否比偶然預期更先于獎賞,從而來推斷線索是否是獎勵的原因[Fig.1C]。



Figure 1 一種揭示環(huán)境中因果關聯(lián)的算法



未預測獎賞測試


本研究算法提出,有意義的因果目標通過調(diào)整后的因果關系凈偶然性(ANCCR)來發(fā)出信號。因此,RPE假說預測多巴胺對蔗糖的反應會隨著重復經(jīng)歷而減少,而ANCCR假說則預測反應會增加。


結果觀察到的中腦邊緣多巴胺釋放與ANCCR一致,但與RPE不一致[Fig.2D,E]。每只動物都表現(xiàn)出增加的蔗糖反應,達到高陽性漸近線。這與RPE完全不一致:因為RPE是收到的和預測的獎勵之間的差異,它不能高于未預測的獎勵。



Figure 2 多巴胺對非預期回報的反應動力學與ANCCR一致,但與TDRL RPE不一致



線索獎勵學習測試


在線索獎勵學習過程中,RPE和ANCCR都預測多巴胺對線索的反應在學習早期會很低,而在學習后期會很高。結果發(fā)現(xiàn)學習期間觀察到的多巴胺能動力學與ANCCR一致,但與RPE不一致:早在動物表現(xiàn)出預期舔之前,多巴胺對CS+的反應就很明顯[Fig.3A,B]。


接下來測試了學習線索獎勵關聯(lián)的消失。學習聯(lián)想的消失不會導致原始聯(lián)想的消失。TDRL在消散后學習到零線索值,從而預測多巴胺能線索反應將隨著行為學習而減少到零。而ANCCR與RPE所預測的不同,在動物停止對線索的行為反應后,多巴胺線索反應仍然顯著積極[Fig.3J-L]。



Figure 3 線索獎賞學習期間多巴胺反應的動力學與ANCCR一致,但與TDRL RPE不一致



測試中的反向傳播


TDRL RPE的一個關鍵假設是多巴胺反應驅(qū)動前一狀態(tài)的價值學習。研究人員測試了這一中心假設的三個預測。第一個是,在獲得微量條件反射的過程中,多巴胺的反應從獎勵前一刻開始系統(tǒng)性地反向傳播。與TDRL RPE不同,ANCCR不進行這樣的預測,因為ANCCR中的延遲周期沒有被分解成狀態(tài)[Fig.4A]。


第二個是,在順序調(diào)節(jié)期間(cue1預測 cue2預測 獎勵),多巴胺反應首先增加到cue2,然后增加到cue1。ANCCR反而預測,當?shù)弥猚ue2是由cue1引起的時,多巴胺對兩種線索的反應會一起增加,隨后會分化[Fig.4C]。


第三個,在連續(xù)條件調(diào)節(jié)期間,人為地抑制cue2釋放多巴胺以獲得獎勵,將阻止cue1反應的學習。相反,在ANCCR中抑制cue2反應只會阻止cue1-cue2關聯(lián)學習,并且不阻止cue1響應的學習[Fig.4E-H]。



Figure 4 學習期間多巴胺信號無反向傳播



結 論


NAcc中中腦邊緣多巴胺釋放的動力學在大量實驗中與TDRL RPE不一致,但仍與因果學習算法一致。這里提出的算法通過測試刺激是否先于偶然預期的獎勵,并將這種關聯(lián)轉(zhuǎn)換為預期預測。


參考文獻:

Jeong, Huijeong et al. “Mesolimbic dopamine release conveys causal associations.” Science (New York, N.Y.), eabq6740. 8 Dec. 2022, doi:10.1126/science.abq6740


編譯作者:Young(brainnews創(chuàng)作團隊)

校審:Simon(brainnews編輯部)




Science:挑戰(zhàn)傳統(tǒng)理論,重塑聯(lián)想學習概念的評論 (共 條)

分享到微博請遵守國家法律
诏安县| 资兴市| 瓮安县| 灵台县| 夏邑县| 甘泉县| 贺兰县| 丹棱县| 深州市| 上饶市| 和平区| 绥中县| 沂源县| 永吉县| 丘北县| 滦南县| 铜鼓县| 静乐县| 泰州市| 嘉黎县| 叙永县| 昌都县| 唐山市| 英吉沙县| 若尔盖县| 黑山县| 正镶白旗| 长沙市| 石首市| 黔西县| 华坪县| 苗栗市| 安化县| 会同县| 尉犁县| 东方市| 全州县| 垣曲县| 米林县| 罗源县| 仁化县|