標籤: 革命性的大型語言模型對齊深入探討直接Q函數優化