在今天的世界中,多模態大型語言模型 (MLLMs) 是先進的系統,能夠處理和理解多種輸入形式,例如文字和圖片。通過解釋這些不同的輸入,這些模型旨在推理任務並生成準確的輸出。然而,MLLMs 在處理複雜任務時經常失敗,因為它們缺乏將問題分解為更小步驟的結構化過程,而是直接提供答案,沒有清晰的中間推理。這些限制降低了 MLLMs 解決複雜問題的成功率和效率。
傳統的多模態大型語言模型 (MLLMs) 推理方法存在許多問題。基於提示的方法,如思考鏈 (Chain-of-Thought),使用固定步驟來模仿人類推理,但在面對困難任務時表現不佳。基於樹或圖的推理方法,如樹狀或思考圖 (Graph-of-Thought),試圖尋找推理路徑,但缺乏靈活性和可靠性。基於學習的方法,如蒙特卡羅樹搜索 (Monte Carlo Tree Search, MCTS),速度較慢,無法幫助深入思考。大多數 MLLMs 依賴於「直接預測」,給出簡短的答案而沒有清晰的步驟。雖然 MCTS 在遊戲和機器人技術中表現良好,但不適合 MLLMs,而集體學習也無法建立強大的逐步推理能力。這些問題使得 MLLMs 難以解決複雜問題。
為了解決這些問題,來自南洋理工大學 (Nanyang Technological University)、清華大學 (Tsinghua University)、百度 (Baidu) 和中山大學 (Sun Yat-sen University) 的研究團隊提出了 CoMCTS,一個改進樹搜索任務中推理路徑搜尋的框架。這個方法不依賴於單一模型,而是結合多個預訓練模型來擴展和評估候選路徑。這種方法與傳統方法不同,因為它使用了一種更有效的策略:多個模型共同工作,從而提高性能並減少推理過程中的錯誤。
這個框架包含四個關鍵步驟:擴展、模擬、反向傳播和選擇。在擴展步驟中,幾個模型同時尋找不同的解決方案,增加可能答案的多樣性。在模擬步驟中,錯誤或效果不佳的路徑被刪除,使搜尋變得更容易。在反向傳播步驟中,模型通過學習過去的錯誤來改進,並利用這些知識做出更好的預測。最後一步使用統計方法來選擇模型應採取的最佳行動。在這個過程中的反思推理幫助模型從之前的錯誤中學習,以便在類似任務中做出更好的決策。
研究人員創建了 Mulberry-260K 數據集,該數據集包含 260K 多模態輸入問題,結合了來自各個領域的文字指令和圖片,包括一般的多模態理解、數學、科學和醫學影像理解。這個數據集是使用 CoMCTS 構建的,訓練樣本限制在 15K 以避免過多。推理任務平均需要 7.5 步,大多數任務在 6 到 8 步之間。CoMCTS 使用了四個模型:GPT4o、Qwen2-VL-7B、LLaMA-3.2-11B-Vision-Instruct 和 Qwen2-VL-72B。訓練過程中,批量大小為 128,學習率為 1e-5,訓練兩個時期。
結果顯示,與基準模型相比,性能有顯著改善,Qwen2-VL-7B 和 LLaMA-3.2-11B-Vision-Instruct 的增益分別為 +4.2% 和 +7.5%。此外,Mulberry 數據集在各種基準測試中超越了推理模型,如 LLaVA-Reasoner-8B 和 Insight-V-8B,顯示出優越的性能。在評估中,CoMCTS 的性能提高了 63.8%。反思推理數據的參與使模型性能略有改善。這顯示了 Mulberry-260K 和 CoMCTS 在提高推理準確性和靈活性方面的效果。
總結來說,提出的 CoMCTS 是一種通過將集體學習融入樹搜索方法來改善多模態大型語言模型 (MLLMs) 推理的方案。這個框架提高了搜尋推理路徑的效率,正如 Mulberry-260K 數據集和 Mulberry 模型所示,這些模型在複雜推理任務中超越了傳統模型。這些方法為未來的研究提供了寶貴的見解,可以作為推進 MLLMs 的基礎,並可以作為開發更高效模型的基準,以應對日益複雜的任務。
查看論文和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60K+ ML SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位提供支持……
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!