兩分鐘生成式人工智慧 — Marco-o1，一個新的大型推理模型 (LRM) | Fabio Chiusano | 生成式人工智慧

OpenAI 的 o1 模型引起了人們對大型推理模型 (LRMs) 的重大關注。基於這股熱潮，Marco-o1 是一個新的 LRM，專注於數學和編程等標準學科，並強調在更廣泛的領域中開放式的解決方案。

特別是，Marco-o1 探討 o1 模型是否能夠推廣到缺乏明確標準和可量化獎勵的領域。

Marco-o1 是一個基於過濾的 Open-O1 CoT 數據集、Marco-o1 CoT 數據集和 Marco-o1 Instruction 數據集的 “Qwen2–7B-Instruct” 微調版本，目的是改善處理複雜任務的能力。

為了進一步增強推理能力，Marco-o1 使用了蒙地卡羅樹搜索 (Monte Carlo Tree Search, MCTS) 和其他創新的推理策略。特別是，MCTS 使用來自 top-𝑘 令牌的日誌概率的信心分數來探索多條推理路徑，引導模型找到更好的解決方案。

Marco-o1 在 MGSM (Multilingual Grade School Math) 英文上提高了 +6.17% 的準確率，在 MGSM 中文上提高了 +5.60% 的準確率。

這篇論文的貢獻包括：

使用 CoT 數據進行微調：作者通過使用開源 CoT 數據集和新的合成數據對基礎模型進行全參數微調，開發了 Marco-o1-CoT。
通過 MCTS 擴展解決方案空間：作者將 LLM 與 MCTS (Marco-o1-MCTS) 整合，利用模型的輸出信心來指導搜索並擴展解決方案空間。
新的推理行動策略：作者實現了新穎的推理行動策略和反思機制 (Marco-o1-MCTS mini-step)，在 MCTS 框架內探索不同的行動粒度，並促使模型進行自我反思。

謝謝你的閱讀！如果你想了解更多關於生成式人工智慧的資訊，記得在 LinkedIn 上關注生成式人工智慧中心。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

兩分鐘生成式人工智慧 — Marco-o1，一個新的大型推理模型 (LRM) | Fabio Chiusano | 生成式人工智慧 | 2024年11月