標籤: 測試時偏好優化一種新穎的人工智慧框架通過迭代文本獎勵策略優化推理過程中的大型語言模型輸出