CMU 研究人員推出 PAPRIKA：一種微調方法，使語言模型能夠發展不受特定環境限制的通用決策能力

在今天快速發展的人工智慧 (AI) 環境中，一個持續的挑戰是如何讓語言模型具備強大的決策能力，這種能力不僅限於單次互動。傳統的大型語言模型 (LLMs) 在生成連貫的回應方面表現優異，但在多步驟問題解決或與動態環境互動時常常遇到困難。這主要是因為訓練數據的性質，這些數據很少反映現實世界場景所需的結構化和互動經驗。此外，直接部署模型以收集現實世界的互動數據可能既昂貴又有風險。因此，迫切需要一些方法來教導 LLMs 在安全和可控的方式下探索、收集相關信息並做出深思熟慮的連續決策。

為了應對這些挑戰，卡內基梅隆大學 (Carnegie Mellon University) 的研究人員開發了一種名為 PAPRIKA 的方法。這種方法旨在賦予語言模型一般的決策能力，而不僅限於某一特定環境。PAPRIKA 不依賴傳統的訓練數據，而是利用在多樣化任務中生成的合成互動數據。這些任務包括經典的猜謎遊戲，如二十個問題，還有像 Mastermind 的謎題，甚至模擬客戶服務互動的場景。通過在這些多樣的路徑上進行訓練，模型學會根據環境的上下文反饋調整其行為，而無需額外的梯度更新。這種方法鼓勵模型採用更靈活的上下文學習策略，能夠應用於各種新任務。

技術細節與好處

PAPRIKA 的方法論建立在兩階段的微調過程上。第一階段是將 LLM 暴露於大量使用名為 Min‑p 抽樣的方法生成的合成路徑，這確保了訓練數據的多樣性和一致性。這一步驟讓模型體驗到各種互動策略，包括成功和不太有效的決策行為。第二階段則使用監督微調 (SFT) 和直接偏好優化 (DPO) 目標的混合來精煉模型。在這種設置中，模型比較一對對的路徑，逐漸學會偏好那些更直接導致任務成功的路徑。

PAPRIKA 還認識到並非所有任務的挑戰程度相同，因此它整合了一種課程學習策略。這個組件根據任務提供有意義的學習經驗的潛力動態選擇任務。通過優先考慮那些能產生更豐富學習信號的任務，這種方法提高了數據效率，幫助模型更好地概括其決策策略。這些方法的結合使得模型在各種情境下的連續決策能力得到了提升。

結果與見解

PAPRIKA 方法的實際好處在其實證結果中顯而易見。在一個示例中，這種方法被應用於一個盜賊最佳臂選擇任務，這是一個需要仔細分配有限樣本預算以識別最有前景選項的場景。在這裡，PAPRIKA 顯著提高了平均成功率，顯示出在策略決策方面的顯著改善。更廣泛地說，當模型在十組多樣任務的路徑上進行訓練時，其整體表現比基準模型提高了約 47%，這是通過大約 22,500 條訓練路徑實現的。

進一步的實驗使用留一法評估顯示，通過 PAPRIKA 學習的決策策略可以概括到以前未見過的任務。例如，當模型在所有任務組中訓練時，仍然能在省略的任務組上表現競爭力。這一發現表明，通過這種微調方法開發的策略並不僅限於特定任務，而是可以在不同的決策場景中轉移。此外，涉及課程學習的研究顯示，根據任務的難度選擇性抽樣訓練任務可以帶來額外的改進，進一步強調了量身定制的數據驅動任務選擇方法的價值。

結論

總之，PAPRIKA 代表了一種深思熟慮且穩健的方法，旨在彌合靜態語言理解與動態連續決策之間的差距。通過利用合成互動數據並採用精心設計的兩階段微調過程，結合課程學習，卡內基梅隆大學的研究人員展示了 LLMs 可以被精煉成更具適應性的決策者。這種方法不僅僅依賴於特定任務的微調，而是準備模型以最小的額外訓練來應對新的挑戰。

能夠與外部環境互動、收集相關信息並根據反饋調整決策，對於任何設計為自主運作的系統都是至關重要的。雖然仍然存在一些挑戰，例如確保穩固的起始模型和管理合成數據生成的計算成本，但 PAPRIKA 提供了一條有希望的途徑，朝著開發更靈活的 AI 系統邁進。最終，隨著我們的模型不斷進步，像 PAPRIKA 這樣的方法將對創造不僅在語言理解上熟練，還能夠細緻入微地應對複雜現實決策任務的工具至關重要。

查看論文、GitHub 頁面和 Hugging Face 上的模型。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外，歡迎在 Twitter 上關注我們，並別忘了加入我們的 80,000 多名機器學習 SubReddit。

🚨 推薦閱讀 – LG AI 研究發布 NEXUS：一個先進的系統，整合代理 AI 系統和數據合規標準，以解決 AI 數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！