復旦大學和上海人工智慧實驗室的研究人員推出DOLPHIN：一個自動化科學研究的閉環框架，具有迭代反饋功能

人工智慧 (AI) 正在改變我們進行發現的方式。AI 正在加速數據分析、計算和創意生成等過程，創造出一種新的科學範式。研究人員希望建立一個系統，最終能夠完全不依賴人類，獨立完成研究循環。這樣的發展可能會提高生產力，並使人們更接近解決困難挑戰的目標。

在科學研究中，假設生成、實驗執行和數據驗證的過程常常效率不高，因為這些過程涉及人類的因素。創新的解決方案受到進化進程的阻礙，因為在實驗過程中，想法無法透過反覆的反饋機制來完善。這一點非常重要，因為它有助於更快和更準確地得出科學研究的結果。

目前已經開發出幾個研究環境，部分自動化研究過程。像是 GPT-researcher 和 AI-Scientist 這些工具可以將任務分解為更簡單的子任務，幫助生成想法並執行某種形式的計算。然而，整體的綜合框架並不存在，無法在研究循環中包含實驗反饋。此外，當前大多數工具依賴小數據集或預定義的工作流程，限制了它們執行開放式研究任務的能力。

復旦大學 (Fudan University) 和上海人工智慧實驗室 (Shanghai Artificial Intelligence Laboratory) 開發了 DOLPHIN，這是一個封閉循環的自動研究框架，涵蓋整個科學研究過程。該系統能生成想法、執行實驗，並結合反饋來完善後續的迭代。DOLPHIN 通過對任務特定文獻進行排名和使用先進的除錯過程，確保更高的效率和準確性。這種綜合方法使其與其他工具區分開來，並使其成為自主研究的先驅系統。

DOLPHIN 的方法論分為三個相互關聯的階段。首先，系統檢索並排名與主題相關的研究論文。這些論文根據與任務和主題屬性的相關性進行排名，從而篩選出最適用的參考資料。使用選定的參考資料，DOLPHIN 生成新穎且獨立的研究想法。生成的想法通過使用句子轉換模型進行精煉，計算餘弦相似度，並去除冗餘。

一旦想法確定，DOLPHIN 便進入實驗驗證階段。它自動生成和除錯代碼，使用異常追蹤指導過程。這涉及分析錯誤信息及其相關的代碼結構，以高效地進行修正。實驗以迭代方式進行，結果被分類為改進、維護或下降。成功的結果會被納入未來的循環中，隨著時間的推移提高想法生成的質量。

DOLPHIN 在三個基準任務上進行了測試：使用 CIFAR-100 的圖像分類、使用 ModelNet40 的 3D 點分類，以及使用 SST-2 的情感分類。在圖像分類中，DOLPHIN 對基線模型如 WideResNet 的準確率提高了最多 0.8%，達到 82.0% 的 top-1 準確率。在 3D 點分類中，該系統超越了人類設計的方法如 PointNet，達到 93.9% 的整體準確率，比基線模型提高了 2.9%。在情感分類中，DOLPHIN 的準確率提高了 1.5%，縮小了 BERT-base 和 BERT-large 之間的差距。這些結果顯示 DOLPHIN 能夠生成與最先進的方法相當的想法，並在多樣的數據集和任務上表現出色。

DOLPHIN 的一個有趣特點是它在研究迭代中提高了效率。在第一次迭代中，它產生了 20 個想法，其中 19 個被認為是新穎的，平均每個想法的成本為 $0.184。DOLPHIN 的閉環系統在第三次迭代中提高了處理效率，增強了想法質量和實驗執行率。除錯的成功率從 33.3% 提高到 50.0%，這是在早期錯誤的結構化反饋被納入後的結果。這種迭代改進突顯了 DOLPHIN 在自動化和優化研究過程中的設計穩健性。

DOLPHIN 代表了人工智慧驅動研究的一次重大進步，解決了傳統科學工作流程中的關鍵低效問題。它能夠將文獻回顧、想法生成、實驗和反饋整合成一個無縫的循環，顯示出其在推進科學發現方面的潛力。這個框架提高了效率，並取得了與人類設計系統相當或超過的結果。這使 DOLPHIN 成為應對複雜科學挑戰和促進各領域創新的有前途的工具。

查看論文和項目頁面。所有的研究成果都歸功於這個項目的研究人員。此外，別忘了在 Twitter 上關注我們，加入我們的 Telegram 頻道和 LinkedIn 群組。還有，別忘了加入我們的 65k+ ML SubReddit。

🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日)：利用合成數據和評估智能提升 LLM 準確性——加入這個研討會，獲取提升 LLM 模型性能和準確性的可行見解，同時保護數據隱私。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 復旦大學和上海人工智慧實驗室的研究人員推出DOLPHIN一個自動化科學研究的閉環框架具有迭代反饋功能