標籤: 這篇AI論文探討長鏈思考推理通過強化學習和監督微調增強大型語言模型