標籤: 在大型語言模型中優化監督學習與偏好微調之間的訓練數據分配