人工智慧 (AI) 正在改變我們進行發現的方式。AI 正在加速數據分析、計算和創意生成等過程,創造出一種新的科學範式。研究人員希望建立一個系統,最終能夠完全不依賴人類,獨立完成研究循環。這樣的發展可能會提高生產力,並使人們更接近解決困難挑戰的目標。
在科學研究中,假設生成、實驗執行和數據驗證的過程常常效率不高,因為這些過程涉及人類的因素。創新的解決方案受到進化進程的阻礙,因為在實驗過程中,想法無法透過反覆的反饋機制來完善。這一點非常重要,因為它有助於更快和更準確地得出科學研究的結果。
目前已經開發出幾個研究環境,部分自動化研究過程。像是 GPT-researcher 和 AI-Scientist 這些工具可以將任務分解為更簡單的子任務,幫助生成想法並執行某種形式的計算。然而,整體的綜合框架並不存在,無法在研究循環中包含實驗反饋。此外,當前大多數工具依賴小數據集或預定義的工作流程,限制了它們執行開放式研究任務的能力。
復旦大學 (Fudan University) 和上海人工智慧實驗室 (Shanghai Artificial Intelligence Laboratory) 開發了 DOLPHIN,這是一個封閉循環的自動研究框架,涵蓋整個科學研究過程。該系統能生成想法、執行實驗,並結合反饋來完善後續的迭代。DOLPHIN 通過對任務特定文獻進行排名和使用先進的除錯過程,確保更高的效率和準確性。這種綜合方法使其與其他工具區分開來,並使其成為自主研究的先驅系統。
DOLPHIN 的方法論分為三個相互關聯的階段。首先,系統檢索並排名與主題相關的研究論文。這些論文根據與任務和主題屬性的相關性進行排名,從而篩選出最適用的參考資料。使用選定的參考資料,DOLPHIN 生成新穎且獨立的研究想法。生成的想法通過使用句子轉換模型進行精煉,計算餘弦相似度,並去除冗餘。
一旦想法確定,DOLPHIN 便進入實驗驗證階段。它自動生成和除錯代碼,使用異常追蹤指導過程。這涉及分析錯誤信息及其相關的代碼結構,以高效地進行修正。實驗以迭代方式進行,結果被分類為改進、維護或下降。成功的結果會被納入未來的循環中,隨著時間的推移提高想法生成的質量。
DOLPHIN 在三個基準任務上進行了測試:使用 CIFAR-100 的圖像分類、使用 ModelNet40 的 3D 點分類,以及使用 SST-2 的情感分類。在圖像分類中,DOLPHIN 對基線模型如 WideResNet 的準確率提高了最多 0.8%,達到 82.0% 的 top-1 準確率。在 3D 點分類中,該系統超越了人類設計的方法如 PointNet,達到 93.9% 的整體準確率,比基線模型提高了 2.9%。在情感分類中,DOLPHIN 的準確率提高了 1.5%,縮小了 BERT-base 和 BERT-large 之間的差距。這些結果顯示 DOLPHIN 能夠生成與最先進的方法相當的想法,並在多樣的數據集和任務上表現出色。
DOLPHIN 的一個有趣特點是它在研究迭代中提高了效率。在第一次迭代中,它產生了 20 個想法,其中 19 個被認為是新穎的,平均每個想法的成本為 $0.184。DOLPHIN 的閉環系統在第三次迭代中提高了處理效率,增強了想法質量和實驗執行率。除錯的成功率從 33.3% 提高到 50.0%,這是在早期錯誤的結構化反饋被納入後的結果。這種迭代改進突顯了 DOLPHIN 在自動化和優化研究過程中的設計穩健性。
DOLPHIN 代表了人工智慧驅動研究的一次重大進步,解決了傳統科學工作流程中的關鍵低效問題。它能夠將文獻回顧、想法生成、實驗和反饋整合成一個無縫的循環,顯示出其在推進科學發現方面的潛力。這個框架提高了效率,並取得了與人類設計系統相當或超過的結果。這使 DOLPHIN 成為應對複雜科學挑戰和促進各領域創新的有前途的工具。
查看論文和項目頁面。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 65k+ ML SubReddit。
🚨 免費即將舉行的 AI 網路研討會 (2025 年 1 月 15 日):利用合成數據和評估智能提升 LLM 準確性——加入這個研討會,獲取提升 LLM 模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!