自然語言處理使用大型語言模型 (LLMs) 來實現語言翻譯、情感分析、語音識別和文本摘要等應用。這些模型依賴於人類反饋的監督數據,但隨著它們超越人類能力,依賴無監督數據變得必要。然而,隨著模型變得越來越複雜和微妙,對齊問題也隨之而來。卡內基梅隆大學 (Carnegie Mellon University)、北京大學 (Peking University)、麻省理工學院-IBM沃森人工智慧實驗室 (MIT-IBM Watson AI Lab)、劍橋大學 (University of Cambridge)、馬克斯·普朗克智能系統研究所 (Max Planck Institute for Intelligent Systems) 和馬薩諸塞大學阿默斯特分校 (UMass Amherst) 的研究人員開發了「易到難的泛化」(Easy-to-Hard Generalization, E2H) 方法,旨在解決複雜任務中的對齊問題,而不依賴人類反饋。
傳統的對齊技術非常依賴於監督微調和來自人類反饋的強化學習 (Reinforcement Learning from Human Feedback, RLHF)。這種對人類能力的依賴在擴展這些系統時成為障礙,因為收集高質量的人類反饋既費時又昂貴。此外,這些模型在學習行為之外的情境中進行泛化也很具挑戰性。因此,迫切需要一種方法,能夠在不需要大量人類監督的情況下完成複雜任務。
所提出的解決方案「易到難的泛化」採用三步驟的方法來實現可擴展的任務泛化:
- 過程監督獎勵模型 (Process-Supervised Reward Models, PRMs):這些模型在簡單的人類級任務上進行訓練。這些訓練好的模型然後評估並指導人工智慧在更高級的複雜任務上的解決能力。
- 易到難的泛化:模型在訓練過程中逐漸接觸到更複雜的任務。從簡單任務的預測和評估用來指導對更難任務的學習。
- 迭代精煉:根據PRMs提供的反饋調整模型。
這種帶有迭代精煉的學習過程使人工智慧能夠從依賴人類反饋的模型轉變為減少人類標註的模型。對於偏離學習行為的任務的泛化變得更加順利。因此,這種方法優化了人工智慧在需要人類參與變得模糊的情況下的表現。
性能比較顯示,在MATH500基準測試中有顯著改善,一個7b的過程監督RL模型達到34.0%的準確率,而一個34b的模型則達到52.5%的準確率,僅使用人類監督於簡單問題上。這種方法在APPS編碼基準測試中也顯示出有效性。這些結果表明,與RLHF相比,對齊結果相當或更優,同時顯著減少了對複雜任務的人類標註數據的需求。
這項研究通過引入創新的易到難的泛化框架,解決了超越人類監督的人工智慧對齊的關鍵挑戰。所提出的方法在使人工智慧系統能夠處理越來越複雜的任務的同時,與人類價值觀保持一致,顯示出良好的結果。其顯著優勢包括對可擴展對齊的新穎方法、在數學和編碼等領域的有效性,以及解決當前對齊方法限制的潛力。然而,仍需在多樣化的現實情境中進行進一步驗證。總的來說,這項工作標誌著朝著開發能夠安全有效運作而不需要直接人類監督的人工智慧系統邁出了一大步,為更先進和對齊的人工智慧技術鋪平了道路。
查看論文和GitHub頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+ ML SubReddit。
🚨 熱門消息:LG AI研究部門發布EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,領導全球生成AI卓越……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!