標籤: 這篇AI論文介紹了代理獎勵建模ARM和REWARDAGENT一種結合人類偏好和可驗證正確性的混合AI方法用於可靠的LLM訓練