深度代理釋出 R1-V：透過具成本效益的強化學習加強視覺-語言模型的超級泛化，以超越更大型模型

視覺語言模型 (VLMs) 面臨一個重要挑戰，就是在保持計算資源和成本效益的同時，能夠在訓練數據之外進行良好的泛化。像是思考鏈監督微調 (CoT-SFT) 的方法，常常會導致過擬合，這意味著模型在已見數據上表現良好，但在新的、未見過的情境中卻表現不佳。這種限制降低了它們在需要適應性的應用中的有效性，例如自動系統、醫療影像和視覺推理任務。此外，普遍的假設是增加模型的大小是提升性能的關鍵。因此，開發一種更有效的訓練模式，以增強泛化能力、減少過擬合並降低計算成本，對於推進 VLMs 的發展變得非常重要。

Deep Agent 推出了 R1-V 來解決上述的一些問題。這種新穎的強化學習方法在成本效益的同時，增強了 VLMs 的泛化能力。這種方法展示了可驗證獎勵的強化學習 (RLVR) 在處理分佈外 (OOD) 數據時，如何在有效性和穩健性上超越傳統的 CoT-SFT。

R1-V 方法的主要目標是增強 VLMs 超越其訓練數據集的泛化能力。R1-V 通過使用強化學習技術來解決這個問題，指導模型學習可泛化的技能，而不是僅僅記住訓練範例。特別是，它專注於教導 VLMs 發展穩健的視覺計數能力，這是許多人工智慧應用中必不可少的技能，包括圖像識別、自動系統和視覺推理。

R1-V 的一大亮點是其訓練效率。儘管使用的模型相對較小，只有 20 億個參數，但 R1-V 在 OOD 測試中的表現卻優於一個有 720 億個參數的更大模型。這表明模型的大小並不是性能的唯一決定因素；訓練方法和強化學習策略在提升模型能力方面也至關重要。

R1-V 在八台 A100 GPU 上訓練了 30 分鐘，總計算成本僅為 2.62 美元。這種成本效益使其成為研究人員和開發者希望在不需要大量計算資源的情況下實現高性能的吸引替代方案。R1-V 也因其依賴經過精心挑選的訓練數據集而脫穎而出。該模型使用了 CLEVR-70k 和 R1-Distilled Visual Reasoning 數據集，這些數據集專門設計用來促進視覺推理和穩健的決策。使用這些數據集確保模型能夠深入理解視覺關係和邏輯推理，而不僅僅是從給定數據集中學習識別模式。

總之，R1-V 的發展支持開源人工智慧研究，並將其代碼、模型權重、數據集和訓練腳本公開。這使得人工智慧研究社群能夠改進和提升視覺語言建模。R1-V 的強化學習方法能夠快速學習數據中的模式和結構，並以最低的計算成本實現高性能。這挑戰了需要大量訓練和龐大數據集才能達到最先進人工智慧性能的假設。相反，有效的訓練方法可以在保持或超越傳統結果的同時，減少計算需求。

查看 GitHub 頁面。所有這項研究的功勞都歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 75k+ 機器學習 SubReddit。

🚨 Marktechpost 邀請人工智慧公司/初創企業/團體合作，參加即將推出的人工智慧雜誌，主題為「開源人工智慧在生產中的應用」和「代理人工智慧」。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: R1V透過具成本效益的強化學習加強視覺語言模型的超級泛化以超越更大型模型深度代理釋出