集體蒙特卡羅樹搜尋（CoMCTS）：一種針對多模態大型語言模型的新學習推理方法

在今天的世界中，多模態大型語言模型 (MLLMs) 是先進的系統，能夠處理和理解多種輸入形式，例如文字和圖片。通過解釋這些不同的輸入，這些模型旨在推理任務並生成準確的輸出。然而，MLLMs 在處理複雜任務時經常失敗，因為它們缺乏將問題分解為更小步驟的結構化過程，而是直接提供答案，沒有清晰的中間推理。這些限制降低了 MLLMs 解決複雜問題的成功率和效率。

傳統的多模態大型語言模型 (MLLMs) 推理方法存在許多問題。基於提示的方法，如思考鏈 (Chain-of-Thought)，使用固定步驟來模仿人類推理，但在面對困難任務時表現不佳。基於樹或圖的推理方法，如樹狀或思考圖 (Graph-of-Thought)，試圖尋找推理路徑，但缺乏靈活性和可靠性。基於學習的方法，如蒙特卡羅樹搜索 (Monte Carlo Tree Search, MCTS)，速度較慢，無法幫助深入思考。大多數 MLLMs 依賴於「直接預測」，給出簡短的答案而沒有清晰的步驟。雖然 MCTS 在遊戲和機器人技術中表現良好，但不適合 MLLMs，而集體學習也無法建立強大的逐步推理能力。這些問題使得 MLLMs 難以解決複雜問題。

為了解決這些問題，來自南洋理工大學 (Nanyang Technological University)、清華大學 (Tsinghua University)、百度 (Baidu) 和中山大學 (Sun Yat-sen University) 的研究團隊提出了 CoMCTS，一個改進樹搜索任務中推理路徑搜尋的框架。這個方法不依賴於單一模型，而是結合多個預訓練模型來擴展和評估候選路徑。這種方法與傳統方法不同，因為它使用了一種更有效的策略：多個模型共同工作，從而提高性能並減少推理過程中的錯誤。

這個框架包含四個關鍵步驟：擴展、模擬、反向傳播和選擇。在擴展步驟中，幾個模型同時尋找不同的解決方案，增加可能答案的多樣性。在模擬步驟中，錯誤或效果不佳的路徑被刪除，使搜尋變得更容易。在反向傳播步驟中，模型通過學習過去的錯誤來改進，並利用這些知識做出更好的預測。最後一步使用統計方法來選擇模型應採取的最佳行動。在這個過程中的反思推理幫助模型從之前的錯誤中學習，以便在類似任務中做出更好的決策。

研究人員創建了 Mulberry-260K 數據集，該數據集包含 260K 多模態輸入問題，結合了來自各個領域的文字指令和圖片，包括一般的多模態理解、數學、科學和醫學影像理解。這個數據集是使用 CoMCTS 構建的，訓練樣本限制在 15K 以避免過多。推理任務平均需要 7.5 步，大多數任務在 6 到 8 步之間。CoMCTS 使用了四個模型：GPT4o、Qwen2-VL-7B、LLaMA-3.2-11B-Vision-Instruct 和 Qwen2-VL-72B。訓練過程中，批量大小為 128，學習率為 1e-5，訓練兩個時期。

結果顯示，與基準模型相比，性能有顯著改善，Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 的增益分別為 +4.2% 和 +7.5%。此外，Mulberry 數據集在各種基準測試中超越了推理模型，如 LLaVA-Reasoner-8B 和 Insight-V-8B，顯示出優越的性能。在評估中，CoMCTS 的性能提高了 63.8%。反思推理數據的參與使模型性能略有改善。這顯示了 Mulberry-260K 和 CoMCTS 在提高推理準確性和靈活性方面的效果。

總結來說，提出的 CoMCTS 是一種通過將集體學習融入樹搜索方法來改善多模態大型語言模型 (MLLMs) 推理的方案。這個框架提高了搜尋推理路徑的效率，正如 Mulberry-260K 數據集和 Mulberry 模型所示，這些模型在複雜推理任務中超越了傳統模型。這些方法為未來的研究提供了寶貴的見解，可以作為推進 MLLMs 的基礎，並可以作為開發更高效模型的基準，以應對日益複雜的任務。

查看論文和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 60K+ ML SubReddit。

🚨 熱門消息：LG AI 研究發布 EXAONE 3.5：三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解，為生成 AI 卓越的全球領導地位提供支持……

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 集體蒙特卡羅樹搜尋CoMCTS一種針對多模態大型語言模型的新學習推理方法