標籤: 微軟與Ubiquant研究人員推出LogicRL一個基於規則的強化學習框架通過在邏輯謎題上的訓練獲得類似R1的推理模式