星期一, 16 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home 機器學習與應用

Meta AI 推出 MLGym:一個新的 AI 框架和基準,用於推進 AI 研究代理人

2025-02-24
in 機器學習與應用
0 0
0
Meta AI 推出 MLGym:一個新的 AI 框架和基準,用於推進 AI 研究代理人
Share on FacebookShare on Twitter
Your Ad


透過人工智慧 (AI) 加速科學發現的雄心已經存在很久,早在1979年就有奧克里奇應用AI專案的早期努力。最近在基礎模型方面的進展顯示,完全自動化的研究流程是可行的,讓AI系統能夠自主進行文獻回顧、提出假設、設計實驗、分析結果,甚至生成科學論文。此外,這些系統還可以通過自動化重複性任務來簡化科學工作流程,讓研究人員能專注於更高層次的概念性工作。然而,儘管這些發展令人鼓舞,評估AI驅動的研究仍然面臨挑戰,因為缺乏標準化的基準來全面評估它們在不同科學領域的能力。

最近的研究針對這一缺口,提出了評估AI代理在各種軟體工程和機器學習任務上的基準。雖然已有框架可以測試AI代理在明確問題上的表現,例如代碼生成和模型優化,但目前大多數基準並不完全支持開放式研究挑戰,因為這些挑戰可能會出現多種解決方案。此外,這些框架通常缺乏靈活性,無法評估多樣的研究成果,例如新算法、模型架構或預測。為了推進AI驅動的研究,需要建立評估系統,涵蓋更廣泛的科學任務,促進不同學習算法的實驗,並適應各種形式的研究貢獻。透過建立這樣的綜合框架,這個領域可以更接近實現能夠獨立推動有意義的科學進展的AI系統。

來自倫敦大學學院 (University College London)、威斯康辛大學麥迪遜分校 (University of Wisconsin–Madison)、牛津大學 (University of Oxford)、Meta等機構的研究人員,提出了一個新的框架和基準,用於評估和開發AI研究中的大型語言模型 (LLM) 代理。這個系統是第一個針對機器學習任務的Gym環境,促進了強化學習 (RL) 技術的研究,以訓練AI代理。這個基準MLGym-Bench包括13個開放式任務,涵蓋計算機視覺、自然語言處理 (NLP)、強化學習和博弈論,要求具備真實世界的研究技能。一個六級框架對AI研究代理的能力進行分類,其中MLGym-Bench專注於第1級:基準改進,這裡的LLM優化模型但缺乏科學貢獻。

MLGym是一個旨在評估和開發LLM代理的框架,通過順序命令與Shell環境進行互動。它包括四個關鍵組件:代理、環境、數據集和任務。代理執行bash命令,管理歷史記錄,並整合外部模型。環境提供一個安全的基於Docker的工作空間,並進行控制訪問。數據集與任務分開定義,允許在實驗中重複使用。任務包括評估腳本和多樣的機器學習挑戰的配置。此外,MLGym還提供文獻搜索、記憶存儲和迭代驗證的工具,確保在長期的AI研究工作流程中高效實驗和適應。

這項研究使用了一個為MLGYM環境設計的SWE-Agent模型,遵循ReAct風格的決策循環。五個最先進的模型——OpenAI O1-preview、Gemini 1.5 Pro、Claude-3.5-Sonnet、Llama-3-405b-Instruct和GPT-4o——在標準化設置下進行評估。性能使用AUP分數和性能概況進行評估,根據最佳嘗試和最佳提交指標比較模型。OpenAI O1-preview獲得了最高的整體性能,Gemini 1.5 Pro和Claude-3.5-Sonnet緊隨其後。研究強調性能概況是一種有效的評估方法,顯示OpenAI O1-preview在各種任務中始終排名前列。

總結來說,這項研究突顯了使用LLM作為科學工作流程代理的潛力和挑戰。MLGym和MLGymBench在各種定量任務中展示了適應性,但也顯示出改進的空間。超越機器學習,測試跨學科的普遍化,並評估科學新穎性是未來增長的關鍵領域。研究強調數據開放性的重要性,以促進合作和發現。隨著AI研究的進展,推理、代理架構和評估方法的進步將至關重要。加強跨學科的合作可以確保AI驅動的代理加速科學發現,同時保持可重複性、可驗證性和完整性。

查看論文和GitHub頁面。這項研究的所有功勞都歸於這個專案的研究人員。此外,歡迎在Twitter上關注我們,並別忘了加入我們的80k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI研究發布NEXUS:一個先進的系統,整合代理AI系統和數據合規標準,以解決AI數據集中的法律問題。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: metaMLGym一個新的推出框架和基準用於推進研究代理人
Previous Post

微軟研究人員推出 BioEmu-1:一種能在單一 GPU 上每小時生成數千種蛋白質結構的深度學習模型

Next Post

RCBC信用卡顛覆性的客戶支持

Related Posts

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台
機器學習與應用

劍橋大學和莫納什大學的研究人員推出 ReasonGraph:一個可視化和分析大型語言模型推理過程的網絡平台

2025-03-16
生成式人工智慧的影響及其對數據科學家的啟示
機器學習與應用

生成式人工智慧的影響及其對數據科學家的啟示

2025-03-15
這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成
機器學習與應用

這篇AI論文介紹了BD3-LMs:一種結合自回歸模型和擴散模型的混合方法,用於可擴展和高效的文本生成

2025-03-15
九個生鏽的Pico PIO瓦特(第二部分)
機器學習與應用

九個生鏽的Pico PIO瓦特(第二部分)

2025-03-15
開始使用 Amazon Bedrock Agents 的電腦操作
機器學習與應用

開始使用 Amazon Bedrock Agents 的電腦操作

2025-03-15
評估使用 Amazon Bedrock 知識庫的 RAG 應用程式
機器學習與應用

評估使用 Amazon Bedrock 知識庫的 RAG 應用程式

2025-03-14
Next Post
RCBC信用卡顛覆性的客戶支持

RCBC信用卡顛覆性的客戶支持

資料外洩的後果

資料外洩的後果

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。