Meta AI 推出 MLGym：一個新的 AI 框架和基準，用於推進 AI 研究代理人

透過人工智慧 (AI) 加速科學發現的雄心已經存在很久，早在1979年就有奧克里奇應用AI專案的早期努力。最近在基礎模型方面的進展顯示，完全自動化的研究流程是可行的，讓AI系統能夠自主進行文獻回顧、提出假設、設計實驗、分析結果，甚至生成科學論文。此外，這些系統還可以通過自動化重複性任務來簡化科學工作流程，讓研究人員能專注於更高層次的概念性工作。然而，儘管這些發展令人鼓舞，評估AI驅動的研究仍然面臨挑戰，因為缺乏標準化的基準來全面評估它們在不同科學領域的能力。

最近的研究針對這一缺口，提出了評估AI代理在各種軟體工程和機器學習任務上的基準。雖然已有框架可以測試AI代理在明確問題上的表現，例如代碼生成和模型優化，但目前大多數基準並不完全支持開放式研究挑戰，因為這些挑戰可能會出現多種解決方案。此外，這些框架通常缺乏靈活性，無法評估多樣的研究成果，例如新算法、模型架構或預測。為了推進AI驅動的研究，需要建立評估系統，涵蓋更廣泛的科學任務，促進不同學習算法的實驗，並適應各種形式的研究貢獻。透過建立這樣的綜合框架，這個領域可以更接近實現能夠獨立推動有意義的科學進展的AI系統。

來自倫敦大學學院 (University College London)、威斯康辛大學麥迪遜分校 (University of Wisconsin–Madison)、牛津大學 (University of Oxford)、Meta等機構的研究人員，提出了一個新的框架和基準，用於評估和開發AI研究中的大型語言模型 (LLM) 代理。這個系統是第一個針對機器學習任務的Gym環境，促進了強化學習 (RL) 技術的研究，以訓練AI代理。這個基準MLGym-Bench包括13個開放式任務，涵蓋計算機視覺、自然語言處理 (NLP)、強化學習和博弈論，要求具備真實世界的研究技能。一個六級框架對AI研究代理的能力進行分類，其中MLGym-Bench專注於第1級：基準改進，這裡的LLM優化模型但缺乏科學貢獻。

MLGym是一個旨在評估和開發LLM代理的框架，通過順序命令與Shell環境進行互動。它包括四個關鍵組件：代理、環境、數據集和任務。代理執行bash命令，管理歷史記錄，並整合外部模型。環境提供一個安全的基於Docker的工作空間，並進行控制訪問。數據集與任務分開定義，允許在實驗中重複使用。任務包括評估腳本和多樣的機器學習挑戰的配置。此外，MLGym還提供文獻搜索、記憶存儲和迭代驗證的工具，確保在長期的AI研究工作流程中高效實驗和適應。

這項研究使用了一個為MLGYM環境設計的SWE-Agent模型，遵循ReAct風格的決策循環。五個最先進的模型——OpenAI O1-preview、Gemini 1.5 Pro、Claude-3.5-Sonnet、Llama-3-405b-Instruct和GPT-4o——在標準化設置下進行評估。性能使用AUP分數和性能概況進行評估，根據最佳嘗試和最佳提交指標比較模型。OpenAI O1-preview獲得了最高的整體性能，Gemini 1.5 Pro和Claude-3.5-Sonnet緊隨其後。研究強調性能概況是一種有效的評估方法，顯示OpenAI O1-preview在各種任務中始終排名前列。

總結來說，這項研究突顯了使用LLM作為科學工作流程代理的潛力和挑戰。MLGym和MLGymBench在各種定量任務中展示了適應性，但也顯示出改進的空間。超越機器學習，測試跨學科的普遍化，並評估科學新穎性是未來增長的關鍵領域。研究強調數據開放性的重要性，以促進合作和發現。隨著AI研究的進展，推理、代理架構和評估方法的進步將至關重要。加強跨學科的合作可以確保AI驅動的代理加速科學發現，同時保持可重複性、可驗證性和完整性。

查看論文和GitHub頁面。這項研究的所有功勞都歸於這個專案的研究人員。此外，歡迎在Twitter上關注我們，並別忘了加入我們的80k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI研究發布NEXUS：一個先進的系統，整合代理AI系統和數據合規標準，以解決AI數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！