星期四, 31 7 月, 2025

No Result

View All Result

AI TAIWAN 台灣人工智慧中心

AI TAIWAN 台灣人工智慧中心

No Result

View All Result

AI TAIWAN 台灣人工智慧中心

No Result

View All Result

Your Ad

Home AI 綜合新聞

未來之家研究人員提出鳥舍：一個可擴展的開源語言代理健身房

in AI 綜合新聞

未來之家研究人員提出鳥舍：一個可擴展的開源語言代理健身房

Share on Facebook Share on Twitter

人工智慧 (AI) 在開發能解決複雜問題的語言模型方面取得了重大進展。然而，將這些模型應用於現實世界的科學挑戰仍然很困難。許多 AI 代理在需要多次觀察、推理和行動的任務上表現不佳。此外，現有模型通常缺乏有效整合工具的能力，或在多步推理中保持一致性。這些問題在科學領域尤為迫切，因為這些任務需要精確性、適應性和計算效率。解決這些問題需要一個靈活且實用的框架來訓練和部署語言代理。

介紹 Aviary：一個可擴展的開源健身房

來自 FutureHouse 公司 (FutureHouse Inc.)、羅切斯特大學 (University of Rochester) 和法蘭西斯·克里克研究所 (Francis Crick Institute) 的研究團隊推出了 Aviary，一個為語言代理設計的開源健身房。Aviary 通過引入語言決策過程 (LDPs)，將任務建模為部分可觀察的馬可夫決策過程，並以自然語言為基礎，來解決現有框架的限制。這種方法使語言代理能夠有效處理複雜的多步推理任務。

Aviary 包含五個環境，其中三個是為高級科學任務設計的：

分子克隆：使用工具操作 DNA 結構，進行序列註釋和方案規劃。

科學文獻問答：檢索和分析科學文獻，以回答詳細的研究問題。

蛋白質穩定性工程：提出蛋白質突變以提高穩定性，並利用計算和生化工具。

這些任務使 Aviary 成為訓練和評估語言代理在需要推理、工具整合和迭代學習的現實場景中的寶貴平台。

Aviary 的技術見解和好處

Aviary 使用隨機計算圖框架來建模語言代理，實現靈活和高效的優化。其主要特點包括：

專家迭代 (EI)：一種訓練方法，通過高質量的軌跡不斷改進代理。

多數投票：一種通過結合多個推理輸出來提高準確性的技術，且不會產生過多的計算開銷。

工具整合：內建對序列註釋器和文獻檢索系統的支持，增強了現實應用的可行性。

研究人員顯示，像 Llama-3.1-8B-Instruct 這樣的非前沿開源模型在這些環境中可以達到與前沿模型 (例如 Claude 3.5 Sonnet) 相當或更好的性能。此外，這些模型的推理成本顯著較低，使其在大規模科學應用中更具可及性。

結果與見解

經過 Aviary 訓練的代理展現了令人印象深刻的表現：

在分子克隆任務中，Llama-3.1-8B-Instruct 代理通過 EI 和行為克隆顯示出顯著的準確性提升，在 SeqQA 基準測試中超越了人類專家。

在科學文獻問答任務中，同一模型的表現與人類相當或更好，同時保持了效率。

多數投票進一步提高了準確性，SeqQA 的結果在抽樣多個軌跡後達到 89%，超越了人類和前沿模型的基準。

結論

Aviary 代表了語言 AI 代理發展的一個深思熟慮的進步。通過展示開源的非前沿模型在科學任務中的優異表現，Aviary 為可及且具成本效益的 AI 研究開啟了新的可能性。其開源設計鼓勵合作，使研究人員和開發者能進一步完善和擴展其應用。

透過針對現實挑戰量身定制的工具和訓練方法，Aviary 為語言代理如何解決複雜任務設立了基準。它提供了一個引人注目的框架，推進 AI 驅動的科學探索和實際問題解決。

查看論文、技術細節和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 60k+ 機器學習 SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025年1月15日)：透過合成數據和評估智慧提升 LLM 準確性—參加這個網路研討會，獲取提升 LLM 模型性能和準確性的可行見解，同時保護數據隱私。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 未來之家研究人員提出鳥舍一個可擴展的開源語言代理健身房

這篇AI論文介紹了SWE-Gym：一個全面的現實世界軟體工程代理訓練環境

點積與逐元素相乘

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2027 年 AI 預測人類水平 AI 的全新里程碑

AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 技術對人類智能的影響我們在失去什麼？

AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼？

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

AI 綜合新聞

MIT 研發新技術提升 AI 生成代碼準確性助力非專業人士掌握 SQL 語言

Next Post

點積與逐元素相乘

點積與逐元素相乘

來自NVIDIA、CMU和華盛頓大學的研究人員發布了「FlashInfer」：一個提供最先進LLM推理和服務的內核實現的內核庫

來自NVIDIA、CMU和華盛頓大學的研究人員發布了「FlashInfer」：一個提供最先進LLM推理和服務的內核實現的內核庫

發佈留言取消回覆

Your Ad

AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

No Result

View All Result

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。