星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

測試時偏好優化:一種新穎的人工智慧框架,通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出

2025-01-28
in AI 綜合新聞
0 0
0
測試時偏好優化:一種新穎的人工智慧框架,通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 已經成為現代生活中不可或缺的一部分,影響著幾乎每一個可想像的領域。它們因在各種複雜任務中的出色表現而受到廣泛認可。然而,也有一些情況出現,LLMs 被批評生成了意外和不安全的回應。因此,持續的研究旨在使 LLMs 更加符合人類的偏好,同時充分利用它們的廣泛訓練數據。

像是來自人類反饋的強化學習 (RLHF) 和直接偏好優化 (DPO) 等方法已被證明有效。然而,這些方法仍然需要反覆訓練,這通常不太實際。因此,研究人員專注於修改推理方法,以匹配基於訓練的優化方法的性能。本文探討了最新的研究,旨在提高推理時的人類偏好對齊。

來自上海人工智慧實驗室的研究人員提出了一種名為測試時偏好優化 (TPO) 的新框架,旨在使 LLM 的輸出與人類偏好對齊。這個框架可以被視為一種在線的、政策導向的學習模式,其中政策模型不斷與新的獎勵模型互動,以改進其輸出。

TPO 採用了一種機制,利用可解釋的文本反饋進行偏好優化,而不是傳統的數值評分。為了實現這一點,作者通過批評將獎勵信號轉換為文本獎勵。然後,模型根據轉換後的獎勵生成建議,並在測試過程中更新其輸出以符合這些信號。

在實際測試中,新的生成回應在每個推理時優化步驟中被評分,回應質量的極端情況被分類為「選擇」或「拒絕」的輸出。模型然後從最佳或「選擇」的輸出中學習其優勢,並從被拒絕的回應中學習其不足,編制出一個「文本損失」。接著,模型為下一次迭代生成建議或「文本梯度」。因此,TPO 根據與文本獎勵的互動不斷改進輸出。

作者使用了對齊和未對齊的政策模型來驗證這一概念,並確定模型在訓練過程中是否經歷了偏好優化。研究中包含的兩個關鍵模型是 Llama-3.1-70B-SFT,這是一個未對齊的模型,沒有在訓練過程中進行偏好優化;以及 Llama-3.1-70B-Instruct,這是一個經過偏好優化訓練的對齊模型。此外,實驗涵蓋了多個數據集,以評估指令遵循、偏好對齊、安全性和數學推理。

這些實驗的結果確認,幾次 TPO 優化步驟顯著提高了對齊和未對齊模型的性能。在將基於 TPO 的推理優化與傳統訓練優化方法進行比較時,研究人員發現未對齊的 Llama-3.1-70B-SFT 模型在經過 TPO 迭代後,表現超過了其對齊的 Llama-3.1-70B-Instruct 模型。此外,將 TPO 應用於一個只有 220 億參數的對齊模型,達到了 53.4% 的 LC 分數和 72.2% 的 WR 分數。

結論:研究團隊介紹了 TPO,這是一個在線的、政策導向的學習框架,旨在通過人類偏好來對齊 LLM 的輸出。這個框架在推理時優化了回應,消除了重新訓練和權重更新的麻煩。此外,TPO 提供了高度的可擴展性和靈活性,使其成為未來 LLM 研究的一個有前景的方案。

查看論文和 GitHub。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 70k+ ML SubReddit。

🚨 [推薦閱讀] Nebius AI Studio 擴展了視覺模型、新語言模型、嵌入和 LoRA (推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: 測試時偏好優化一種新穎的人工智慧框架通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出
Previous Post

擴展機器人感知 | 麻省理工學院新聞

Next Post

利用大型語言模型中的幻覺來增強藥物發現

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
利用大型語言模型中的幻覺來增強藥物發現

利用大型語言模型中的幻覺來增強藥物發現

證書管理自助服務功能以簡化訪問並提升效率

證書管理自助服務功能以簡化訪問並提升效率

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。