人工智慧 (AI) 在開發能解決複雜問題的語言模型方面取得了重大進展。然而,將這些模型應用於現實世界的科學挑戰仍然很困難。許多 AI 代理在需要多次觀察、推理和行動的任務上表現不佳。此外,現有模型通常缺乏有效整合工具的能力,或在多步推理中保持一致性。這些問題在科學領域尤為迫切,因為這些任務需要精確性、適應性和計算效率。解決這些問題需要一個靈活且實用的框架來訓練和部署語言代理。
介紹 Aviary:一個可擴展的開源健身房
來自 FutureHouse 公司 (FutureHouse Inc.)、羅切斯特大學 (University of Rochester) 和法蘭西斯·克里克研究所 (Francis Crick Institute) 的研究團隊推出了 Aviary,一個為語言代理設計的開源健身房。Aviary 通過引入語言決策過程 (LDPs),將任務建模為部分可觀察的馬可夫決策過程,並以自然語言為基礎,來解決現有框架的限制。這種方法使語言代理能夠有效處理複雜的多步推理任務。
Aviary 包含五個環境,其中三個是為高級科學任務設計的:
- 分子克隆:使用工具操作 DNA 結構,進行序列註釋和方案規劃。
- 科學文獻問答:檢索和分析科學文獻,以回答詳細的研究問題。
- 蛋白質穩定性工程:提出蛋白質突變以提高穩定性,並利用計算和生化工具。
這些任務使 Aviary 成為訓練和評估語言代理在需要推理、工具整合和迭代學習的現實場景中的寶貴平台。
Aviary 的技術見解和好處
Aviary 使用隨機計算圖框架來建模語言代理,實現靈活和高效的優化。其主要特點包括:
- 專家迭代 (EI):一種訓練方法,通過高質量的軌跡不斷改進代理。
- 多數投票:一種通過結合多個推理輸出來提高準確性的技術,且不會產生過多的計算開銷。
- 工具整合:內建對序列註釋器和文獻檢索系統的支持,增強了現實應用的可行性。

研究人員顯示,像 Llama-3.1-8B-Instruct 這樣的非前沿開源模型在這些環境中可以達到與前沿模型 (例如 Claude 3.5 Sonnet) 相當或更好的性能。此外,這些模型的推理成本顯著較低,使其在大規模科學應用中更具可及性。
結果與見解
經過 Aviary 訓練的代理展現了令人印象深刻的表現:
- 在分子克隆任務中,Llama-3.1-8B-Instruct 代理通過 EI 和行為克隆顯示出顯著的準確性提升,在 SeqQA 基準測試中超越了人類專家。
- 在科學文獻問答任務中,同一模型的表現與人類相當或更好,同時保持了效率。
- 多數投票進一步提高了準確性,SeqQA 的結果在抽樣多個軌跡後達到 89%,超越了人類和前沿模型的基準。

結論
Aviary 代表了語言 AI 代理發展的一個深思熟慮的進步。通過展示開源的非前沿模型在科學任務中的優異表現,Aviary 為可及且具成本效益的 AI 研究開啟了新的可能性。其開源設計鼓勵合作,使研究人員和開發者能進一步完善和擴展其應用。
透過針對現實挑戰量身定制的工具和訓練方法,Aviary 為語言代理如何解決複雜任務設立了基準。它提供了一個引人注目的框架,推進 AI 驅動的科學探索和實際問題解決。
查看論文、技術細節和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。也別忘了加入我們的 60k+ 機器學習 SubReddit。
🚨 免費即將舉行的 AI 網路研討會 (2025年1月15日):透過合成數據和評估智慧提升 LLM 準確性—參加這個網路研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!