了解術語:大型推理模型 (Large Reasoning Model, LRM)。你將很快聽到很多次。
OpenAI 的 o1 模型引起了人們對大型推理模型 (LRMs) 的重大關注。基於這股熱潮,Marco-o1 是一個新的 LRM,專注於數學和編程等標準學科,並強調在更廣泛的領域中開放式的解決方案。
特別是,Marco-o1 探討 o1 模型是否能夠推廣到缺乏明確標準和可量化獎勵的領域。
Marco-o1 是一個基於過濾的 Open-O1 CoT 數據集、Marco-o1 CoT 數據集和 Marco-o1 Instruction 數據集的 “Qwen2–7B-Instruct” 微調版本,目的是改善處理複雜任務的能力。
為了進一步增強推理能力,Marco-o1 使用了蒙地卡羅樹搜索 (Monte Carlo Tree Search, MCTS) 和其他創新的推理策略。特別是,MCTS 使用來自 top-𝑘 令牌的日誌概率的信心分數來探索多條推理路徑,引導模型找到更好的解決方案。
Marco-o1 在 MGSM (Multilingual Grade School Math) 英文上提高了 +6.17% 的準確率,在 MGSM 中文上提高了 +5.60% 的準確率。
這篇論文的貢獻包括:
- 使用 CoT 數據進行微調:作者通過使用開源 CoT 數據集和新的合成數據對基礎模型進行全參數微調,開發了 Marco-o1-CoT。
- 通過 MCTS 擴展解決方案空間:作者將 LLM 與 MCTS (Marco-o1-MCTS) 整合,利用模型的輸出信心來指導搜索並擴展解決方案空間。
- 新的推理行動策略:作者實現了新穎的推理行動策略和反思機制 (Marco-o1-MCTS mini-step),在 MCTS 框架內探索不同的行動粒度,並促使模型進行自我反思。
謝謝你的閱讀!如果你想了解更多關於生成式人工智慧的資訊,記得在 LinkedIn 上關注生成式人工智慧中心。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!