重訪強化學習 | MIT新聞 - AI TAIWAN 台灣人工智慧中心

多巴胺的作用

多巴胺是一種強大的大腦信號，影響我們的情緒、動機、運動等。這種神經傳導物質對於基於獎勵的學習非常重要，但在許多精神疾病中，如情緒障礙和成癮，這個功能可能會受到干擾。

研究發現

現在，由麻省理工學院 (MIT) 的安·格雷比爾 (Ann Graybiel) 教授領導的研究團隊發現了一些令人驚訝的多巴胺信號模式，這表明神經科學家可能需要重新思考大腦中強化學習的過程。這些研究結果最近發表在《自然通訊》(Nature Communications) 期刊上。

多巴胺的學習功能

多巴胺在教導人類和其他動物識別正面和負面結果的提示和行為方面扮演著關鍵角色。舉例來說，伊凡·巴甫洛夫 (Ivan Pavlov) 訓練的狗會在聽到鈴聲時期待食物。格雷比爾教授解釋，根據傳統的強化學習模型，當動物接收到與獎勵相關的提示時，多巴胺產生細胞最初會對獎勵作出反應。隨著動物學會提示和獎勵之間的聯繫，多巴胺釋放的時間會改變，變得與提示而不是獎勵本身相關聯。

新發現的挑戰

但是，隨著新工具的出現，讓研究人員能夠更詳細地分析多巴胺在大腦中的釋放時間和位置，格雷比爾的團隊發現這個模型並不完全正確。十多年前，實驗室的研究生馬克·霍威 (Mark Howe) 注意到，與獎勵相關的多巴胺信號並不是在獲得獎勵的瞬間突然釋放，而是在老鼠接近食物時逐漸增加。他們推測，多巴胺可能是在告訴大腦獎勵的接近程度。格雷比爾說：「這完全不符合傳統的模型。」

多巴胺動態

其他神經科學家在考慮如何將這些發現納入強化學習模型時，格雷比爾和博士後研究員金敏正 (Min Jung Kim) 決定仔細研究多巴胺的動態。他們想：「讓我們回到最基本的實驗，重新開始。」

實驗設計

這意味著使用敏感的新多巴胺感測器來追蹤老鼠在學習將藍光與美味水相聯繫時的多巴胺釋放。研究團隊專注於基底神經節中的紋狀體，這是一個使用多巴胺影響神經迴路的區域，涉及多種過程，包括基於獎勵的學習。

研究結果

研究人員發現，紋狀體不同部分的多巴胺釋放時間有所不同。然而，格雷比爾的團隊並沒有發現從獎勵時間到提示時間的多巴胺釋放時間轉變，這是傳統強化學習模型預測的關鍵轉變。

意外的模式

在團隊的簡單實驗中，每當老鼠看到燈光時，這個燈光都會與獎勵相連結，紋狀體的外側部分在動物獲得水時穩定地釋放多巴胺。即使老鼠學會了看到燈光就期待獎勵，對獎勵的強烈反應也從未減弱。相反，在紋狀體的內側部分，獎勵時從未釋放多巴胺。那裡的細胞在老鼠看到燈光時總是會發火，即使在學習過程的早期。格雷比爾表示，這讓人困惑，因為在學習初期，預測多巴胺應該對獎勵本身作出反應。

第二個燈的影響

當格雷比爾的團隊在實驗中引入第二個燈時，多巴胺釋放的模式變得更加意外。這個新燈的位置不同，並不表示獎勵。老鼠看到燈光作為提示時，只有原始的提示才會伴隨水。

持續的多巴胺釋放

在這些實驗中，當老鼠看到與獎勵相關的燈光時，內側紋狀體的多巴胺釋放增加，並且驚人的是，這一釋放在獎勵到來之前保持上升。在該區域的外側部分，多巴胺也經歷了一段持續的信號平穩期。

結論

格雷比爾表示，當實驗者引入第二個燈時，她驚訝於多巴胺反應的變化。即使老鼠每次只看到一個燈光，對獎勵燈光的反應在其他試驗中也有所不同。她說：「這一定涉及到某種認知方面。大腦希望保留提示出現的信息。」紋狀體中的細胞似乎通過在燈光和獎勵之間的短暫延遲期間持續釋放多巴胺來實現這一點。格雷比爾指出，雖然這種持續的多巴胺釋放以前未與強化學習聯繫起來，但它與大腦其他部分的工作記憶持續信號相似。

重新思考強化學習

最終，格雷比爾表示，「我們的許多結果並不符合傳統的強化學習模型。」這表明神經科學家對這一過程的理解需要隨著對大腦的深入了解而演變。「這只是幫助我們完善理解的一步，並重新構建基底神經節如何影響運動、思考和情感的模型。這些重新構建將必須包括對強化學習系統的驚訝，但它們可能會讓我們更深入了解單一經驗如何在大腦的強化相關部分中持續存在。」

研究資助

這項研究得到了美國國家衛生研究院 (National Institutes of Health)、威廉·N·和伯尼斯·E·班普斯基金會 (William N. and Bernice E. Bumpus Foundation)、薩克斯·卡瓦諾基金會 (Saks Kavanaugh Foundation)、CHDI基金會 (CHDI Foundation)、瓊和吉姆·沙廷格 (Joan and Jim Schattinger) 以及李莎·楊 (Lisa Yang) 的資助。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

重訪強化學習 | MIT新聞

研究：某些語言獎勵模型顯示政治偏見 | 麻省理工學院新聞

機器鰩採用更簡單、更高效的設計游得更快

Related Posts

還聲音：Cognixion 的腦機介面耳機為晚期肌萎縮側索硬化症帶來希望

證據顯示40Hz伽瑪刺激促進大腦健康的研究不斷擴展 | MIT新聞

麻省理工學院工程師將皮膚細胞直接轉化為神經元以進行細胞療法 | 麻省理工學院新聞

自然如何自我組織，從腦細胞到生態系統 | 麻省理工學院新聞

研究顯示治療脆弱X症的新分子策略 | 麻省理工學院新聞

設計更好的藥物傳遞方式 | 麻省理工學院新聞

機器鰩採用更簡單、更高效的設計游得更快

BayesCNS：一種統一的貝葉斯方法，用於解決大規模搜索系統中的冷啟動和非穩定性問題

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

重訪強化學習 | MIT新聞

多巴胺的作用

研究發現

多巴胺的學習功能

新發現的挑戰

多巴胺動態

實驗設計

研究結果

意外的模式

第二個燈的影響

持續的多巴胺釋放

結論

重新思考強化學習

研究資助

研究：某些語言獎勵模型顯示政治偏見 | 麻省理工學院新聞

機器鰩採用更簡單、更高效的設計游得更快

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆