UBC 研究人員推出「首次探索」：一種雙政策學習方法，旨在拯救元強化學習中的失敗探索

強化學習的最新進展

強化學習（Reinforcement Learning, RL）現在幾乎應用於每一個科學和技術的領域，無論是作為核心方法論還是用來優化現有的過程和系統。儘管在高度先進的領域中廣泛採用，強化學習在一些基本技能上仍然落後。其中一個問題是樣本效率（Sample Inefficiency），這限制了它的潛力。簡單來說，強化學習需要數千次的嘗試來學習一些基本任務，例如探索，而人類只需幾次就能掌握（例如，想像一個孩子在高中時期終於學會基本的算術）。元強化學習（Meta-RL）通過讓代理擁有先前的經驗來解決這個問題。代理會記住之前的事件，以便適應新環境並提高樣本效率。元強化學習比標準的強化學習更好，因為它學會了探索並掌握了遠超過標準強化學習能力的複雜策略，比如學習新技能或進行實驗來了解當前環境。

元強化學習的挑戰

在討論了基於記憶的元強化學習在強化學習領域的優勢後，讓我們來看看它的限制。傳統的元強化學習方法旨在最大化所有考慮序列中的累積獎勵，這意味著它在探索和利用之間找到最佳平衡。一般來說，這個平衡意味著在早期的嘗試中優先探索，以便在後期進行利用。現在的問題是，即使是最先進的方法在探索時也會卡在局部最優解上，特別是當代理必須為了後續更高的獎勵而犧牲即時獎勵時。在這篇文章中，我們將討論最新的研究，聲稱能夠解決元強化學習中的這個問題。

新方法：先探索，再利用

不列顛哥倫比亞大學（University of British Columbia）的研究人員提出了“先探索，後利用”（First-Explore）的方法，這是一種元強化學習方法，通過學習兩種不同的策略來區分探索和利用。探索策略首先告訴利用策略如何最大化每次嘗試的回報；這兩者都不試圖最大化單次回報，而是在訓練後結合起來最大化累積獎勵。由於探索策略僅用於告訴利用策略，因此當前的利用不佳不再會導致即時獎勵的下降而阻礙探索。探索策略首先執行連續的嘗試，並提供當前探索序列的上下文，包括之前的行動、獎勵和觀察。它的目標是產生那些當與當前上下文結合時，能夠產生後續高回報的利用策略的嘗試。然後，利用策略從探索策略中獲取上下文，進行n次嘗試以產生高回報的嘗試。

實驗結果

First-Explore的官方實現是基於GPT-2風格的因果變壓器架構。這兩種策略共享相似的參數，僅在最後一層的頭部有所不同。

在實驗中，作者將First-Explore與三個強化學習環境進行比較：固定臂的賭徒（Bandits with One Fixed Arm）、黑暗寶藏室（Dark Treasure Rooms）和光線迷宮（Ray Maze），這些環境的挑戰程度各不相同。固定臂的賭徒是一個多臂賭徒問題，旨在放棄即時獎勵，但沒有探索價值。第二個領域是一個網格世界環境，代理在無法看到周圍環境的情況下尋找隨機位置的獎勵。最後一個環境是所有環境中最具挑戰性的，並且突顯了First-Explore在元強化學習之外的學習能力。它由隨機生成的迷宮和三個獎勵位置組成。

First-Explore在固定臂賭徒的領域中獲得的總獎勵是元強化學習方法的兩倍。在第二個環境中，這個數字進一步飆升到10倍，而在最後一個環境中則是6倍。除了元強化學習方法外，First-Explore在放棄即時獎勵方面也大幅超越了其他強化學習方法。

結論

總結來說，First-Explore為傳統元強化學習方法所面臨的即時獎勵問題提供了一個有效的解決方案。它將探索和利用分開，學習兩種獨立的策略，並在訓練後結合起來最大化累積獎勵，而這是元強化學習無法實現的。然而，它也面臨一些挑戰，為未來的研究鋪平了道路。這些挑戰包括無法探索未來、忽視負獎勵和長序列建模。未來，看到這些問題如何解決，以及是否會對強化學習的效率產生積極影響，將會很有趣。

查看論文。所有的研究功勞都歸功於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn群組。還有，記得加入我們的60k+機器學習SubReddit。

🚨 熱門消息：LG AI研究部門發布EXAONE 3.5：三個開源雙語前沿AI模型，提供無與倫比的指令跟隨和長上下文理解，為生成AI卓越的全球領導力提供支持……

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的

AI TAIWAN 台灣人工智慧中心
FB 社團，隨時掌握最新 AI 動態與實用資訊！