透過人工智慧 (AI) 加速科學發現的雄心已經存在很久,早在1979年就有奧克里奇應用AI專案的早期努力。最近在基礎模型方面的進展顯示,完全自動化的研究流程是可行的,讓AI系統能夠自主進行文獻回顧、提出假設、設計實驗、分析結果,甚至生成科學論文。此外,這些系統還可以通過自動化重複性任務來簡化科學工作流程,讓研究人員能專注於更高層次的概念性工作。然而,儘管這些發展令人鼓舞,評估AI驅動的研究仍然面臨挑戰,因為缺乏標準化的基準來全面評估它們在不同科學領域的能力。
最近的研究針對這一缺口,提出了評估AI代理在各種軟體工程和機器學習任務上的基準。雖然已有框架可以測試AI代理在明確問題上的表現,例如代碼生成和模型優化,但目前大多數基準並不完全支持開放式研究挑戰,因為這些挑戰可能會出現多種解決方案。此外,這些框架通常缺乏靈活性,無法評估多樣的研究成果,例如新算法、模型架構或預測。為了推進AI驅動的研究,需要建立評估系統,涵蓋更廣泛的科學任務,促進不同學習算法的實驗,並適應各種形式的研究貢獻。透過建立這樣的綜合框架,這個領域可以更接近實現能夠獨立推動有意義的科學進展的AI系統。
來自倫敦大學學院 (University College London)、威斯康辛大學麥迪遜分校 (University of Wisconsin–Madison)、牛津大學 (University of Oxford)、Meta等機構的研究人員,提出了一個新的框架和基準,用於評估和開發AI研究中的大型語言模型 (LLM) 代理。這個系統是第一個針對機器學習任務的Gym環境,促進了強化學習 (RL) 技術的研究,以訓練AI代理。這個基準MLGym-Bench包括13個開放式任務,涵蓋計算機視覺、自然語言處理 (NLP)、強化學習和博弈論,要求具備真實世界的研究技能。一個六級框架對AI研究代理的能力進行分類,其中MLGym-Bench專注於第1級:基準改進,這裡的LLM優化模型但缺乏科學貢獻。
MLGym是一個旨在評估和開發LLM代理的框架,通過順序命令與Shell環境進行互動。它包括四個關鍵組件:代理、環境、數據集和任務。代理執行bash命令,管理歷史記錄,並整合外部模型。環境提供一個安全的基於Docker的工作空間,並進行控制訪問。數據集與任務分開定義,允許在實驗中重複使用。任務包括評估腳本和多樣的機器學習挑戰的配置。此外,MLGym還提供文獻搜索、記憶存儲和迭代驗證的工具,確保在長期的AI研究工作流程中高效實驗和適應。
這項研究使用了一個為MLGYM環境設計的SWE-Agent模型,遵循ReAct風格的決策循環。五個最先進的模型——OpenAI O1-preview、Gemini 1.5 Pro、Claude-3.5-Sonnet、Llama-3-405b-Instruct和GPT-4o——在標準化設置下進行評估。性能使用AUP分數和性能概況進行評估,根據最佳嘗試和最佳提交指標比較模型。OpenAI O1-preview獲得了最高的整體性能,Gemini 1.5 Pro和Claude-3.5-Sonnet緊隨其後。研究強調性能概況是一種有效的評估方法,顯示OpenAI O1-preview在各種任務中始終排名前列。
總結來說,這項研究突顯了使用LLM作為科學工作流程代理的潛力和挑戰。MLGym和MLGymBench在各種定量任務中展示了適應性,但也顯示出改進的空間。超越機器學習,測試跨學科的普遍化,並評估科學新穎性是未來增長的關鍵領域。研究強調數據開放性的重要性,以促進合作和發現。隨著AI研究的進展,推理、代理架構和評估方法的進步將至關重要。加強跨學科的合作可以確保AI驅動的代理加速科學發現,同時保持可重複性、可驗證性和完整性。
查看論文和GitHub頁面。這項研究的所有功勞都歸於這個專案的研究人員。此外,歡迎在Twitter上關注我們,並別忘了加入我們的80k+機器學習SubReddit。
🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理AI系統和數據合規標準,以解決AI數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!