在今天快速發展的人工智慧 (AI) 環境中,一個持續的挑戰是如何讓語言模型具備強大的決策能力,這種能力不僅限於單次互動。傳統的大型語言模型 (LLMs) 在生成連貫的回應方面表現優異,但在多步驟問題解決或與動態環境互動時常常遇到困難。這主要是因為訓練數據的性質,這些數據很少反映現實世界場景所需的結構化和互動經驗。此外,直接部署模型以收集現實世界的互動數據可能既昂貴又有風險。因此,迫切需要一些方法來教導 LLMs 在安全和可控的方式下探索、收集相關信息並做出深思熟慮的連續決策。
為了應對這些挑戰,卡內基梅隆大學 (Carnegie Mellon University) 的研究人員開發了一種名為 PAPRIKA 的方法。這種方法旨在賦予語言模型一般的決策能力,而不僅限於某一特定環境。PAPRIKA 不依賴傳統的訓練數據,而是利用在多樣化任務中生成的合成互動數據。這些任務包括經典的猜謎遊戲,如二十個問題,還有像 Mastermind 的謎題,甚至模擬客戶服務互動的場景。通過在這些多樣的路徑上進行訓練,模型學會根據環境的上下文反饋調整其行為,而無需額外的梯度更新。這種方法鼓勵模型採用更靈活的上下文學習策略,能夠應用於各種新任務。
技術細節與好處
PAPRIKA 的方法論建立在兩階段的微調過程上。第一階段是將 LLM 暴露於大量使用名為 Min‑p 抽樣的方法生成的合成路徑,這確保了訓練數據的多樣性和一致性。這一步驟讓模型體驗到各種互動策略,包括成功和不太有效的決策行為。第二階段則使用監督微調 (SFT) 和直接偏好優化 (DPO) 目標的混合來精煉模型。在這種設置中,模型比較一對對的路徑,逐漸學會偏好那些更直接導致任務成功的路徑。
PAPRIKA 還認識到並非所有任務的挑戰程度相同,因此它整合了一種課程學習策略。這個組件根據任務提供有意義的學習經驗的潛力動態選擇任務。通過優先考慮那些能產生更豐富學習信號的任務,這種方法提高了數據效率,幫助模型更好地概括其決策策略。這些方法的結合使得模型在各種情境下的連續決策能力得到了提升。
結果與見解
PAPRIKA 方法的實際好處在其實證結果中顯而易見。在一個示例中,這種方法被應用於一個盜賊最佳臂選擇任務,這是一個需要仔細分配有限樣本預算以識別最有前景選項的場景。在這裡,PAPRIKA 顯著提高了平均成功率,顯示出在策略決策方面的顯著改善。更廣泛地說,當模型在十組多樣任務的路徑上進行訓練時,其整體表現比基準模型提高了約 47%,這是通過大約 22,500 條訓練路徑實現的。
進一步的實驗使用留一法評估顯示,通過 PAPRIKA 學習的決策策略可以概括到以前未見過的任務。例如,當模型在所有任務組中訓練時,仍然能在省略的任務組上表現競爭力。這一發現表明,通過這種微調方法開發的策略並不僅限於特定任務,而是可以在不同的決策場景中轉移。此外,涉及課程學習的研究顯示,根據任務的難度選擇性抽樣訓練任務可以帶來額外的改進,進一步強調了量身定制的數據驅動任務選擇方法的價值。
結論
總之,PAPRIKA 代表了一種深思熟慮且穩健的方法,旨在彌合靜態語言理解與動態連續決策之間的差距。通過利用合成互動數據並採用精心設計的兩階段微調過程,結合課程學習,卡內基梅隆大學的研究人員展示了 LLMs 可以被精煉成更具適應性的決策者。這種方法不僅僅依賴於特定任務的微調,而是準備模型以最小的額外訓練來應對新的挑戰。
能夠與外部環境互動、收集相關信息並根據反饋調整決策,對於任何設計為自主運作的系統都是至關重要的。雖然仍然存在一些挑戰,例如確保穩固的起始模型和管理合成數據生成的計算成本,但 PAPRIKA 提供了一條有希望的途徑,朝著開發更靈活的 AI 系統邁進。最終,隨著我們的模型不斷進步,像 PAPRIKA 這樣的方法將對創造不僅在語言理解上熟練,還能夠細緻入微地應對複雜現實決策任務的工具至關重要。
查看論文、GitHub 頁面和 Hugging Face 上的模型。所有對這項研究的讚譽都歸功於這個項目的研究人員。此外,歡迎在 Twitter 上關注我們,並別忘了加入我們的 80,000 多名機器學習 SubReddit。
🚨 推薦閱讀 – LG AI 研究發布 NEXUS:一個先進的系統,整合代理 AI 系統和數據合規標準,以解決 AI 數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!