OpenAI 正在推出一項強大的能力,讓 ChatGPT 能夠在線上進行複雜的多步驟研究任務。這項功能叫做深度研究(Deep Research),據說能在幾十分鐘內完成人類研究人員需要幾小時甚至幾天才能完成的工作。
OpenAI 將深度研究描述為邁向人工通用智能(AGI)的重要里程碑。
OpenAI 表示:「合成知識的能力是創造新知識的必要條件。因此,深度研究標誌著我們在發展 AGI 的更大目標上邁出了重要一步。」
代理型人工智慧幫助 ChatGPT 進行複雜研究
深度研究使 ChatGPT 能夠自動尋找、分析和綜合來自數百個在線來源的信息。只需用戶輸入一段提示,這個工具就能提供一份完整的報告,與研究分析師的成果相當,根據 OpenAI 的說法。
這項技術來自 OpenAI 即將推出的「o3」模型,目的是讓用戶擺脫耗時、繁瑣的信息收集。不論是對串流平台的競爭分析、政策評估,還是為新通勤自行車提供個性化建議,深度研究都能保證準確和可靠的結果。
重要的是,每個輸出都包含完整的引用和透明的文件,讓用戶可以輕鬆驗證結果。
這個工具特別擅長發現小眾或非直觀的見解,讓它成為金融、科學、政策制定和工程等行業的寶貴資產。OpenAI 也希望深度研究能對普通用戶有幫助,比如尋找超個性化建議或特定產品的購物者。
這項最新的代理型能力通過 ChatGPT 的用戶界面運作;用戶只需在消息編輯器中選擇「深度研究」選項並輸入查詢。支持的文件或電子表格也可以上傳以提供額外的背景信息。
一旦啟動,人工智慧將展開嚴謹的多步驟過程,這可能需要 5 到 30 分鐘才能完成。側邊欄會提供所採取行動和所查詢來源的更新。用戶可以繼續其他任務,並在最終報告準備好時收到通知。
結果以詳細且文件齊全的報告形式呈現在聊天中。未來幾周,OpenAI 計劃進一步增強這些輸出,嵌入圖片、數據可視化和圖表,以提供更大的清晰度和背景信息。
與 GPT-4o 不同——它擅長即時、多模態的對話——深度研究更注重深度和細節。它能夠嚴謹地引用來源並提供全面的分析,這使它與眾不同——將重點從快速、簡要的答案轉移到文件齊全、研究級的見解。
面對現實挑戰而設計
深度研究利用先進的訓練方法,基於真實的瀏覽和推理任務,涵蓋多個領域。這個模型通過強化學習進行訓練,能夠自動規劃和執行多步驟的研究過程,包括回溯和根據新信息靈活調整其方法。
這個工具可以瀏覽用戶上傳的文件,使用 Python 生成和迭代圖表,將生成的圖片和網頁嵌入回答中,並精確引用來源的具體句子或段落。這種廣泛的訓練結果是針對複雜現實問題的高效代理。
OpenAI 在一系列專家級考試中評估了深度研究,這些考試被稱為「人類的最後考試」。這些考試涵蓋了超過 3,000 道問題,主題包括火箭科學、語言學、生態學和古典文學,測試人工智慧解決複雜問題的能力。
結果令人印象深刻,該模型在這些領域的準確率創下了 26.6% 的紀錄:
- GPT-4o: 3.3%
- Grok-2: 3.8%
- Claude 3.5 Sonnet: 4.3%
- OpenAI o1: 9.1%
- DeepSeek-R1: 9.4%
- 深度研究: 26.6%(結合瀏覽 + Python 工具)
深度研究在 GAIA 基準測試中也達到了新的最佳表現,該測試評估人工智慧模型在需要推理、多模態流暢性和工具使用能力的現實問題上。深度研究以 72.57% 的分數位居領先。
限制與挑戰
雖然 ChatGPT 的深度研究代理型人工智慧能力標誌著一個大膽的進步,但 OpenAI 承認這項技術仍處於早期階段,存在一些限制。
根據 OpenAI 的說法,該系統偶爾會「幻想」事實或提供不正確的推論,儘管與現有的 GPT 模型相比,這種情況的發生率明顯降低。它在區分權威來源和推測內容方面也面臨挑戰,並且很難調整其信心水平——經常對可能不確定的發現表現出過度的確定感。
報告和引用中的小格式錯誤,以及啟動任務的延遲,可能也會讓初次使用者感到沮喪。OpenAI 表示,隨著使用次數的增加和不斷的改進,這些問題預計會得到改善。
OpenAI 正在逐步推出這項功能,首先是專業用戶,他們每月可以使用最多 100 次查詢。Plus 和 Team 階層將隨之而來,企業級的用戶接入也將在之後到來。
英國、瑞士和歐洲經濟區的居民目前尚無法使用此功能,但 OpenAI 表示正在努力擴展到這些地區。
在未來幾周,OpenAI 將把這項功能擴展到 ChatGPT 的移動和桌面平台。長期的願景包括連接基於訂閱或專有數據來源,進一步增強輸出的穩健性和個性化。
展望未來,OpenAI 計劃將深度研究與「操作員」(Operator)整合,這是一項現有的聊天機器人功能,可以執行現實世界的行動。這種整合將使 ChatGPT 能夠無縫地處理需要同時進行的在線研究和現實執行的任務。
(照片來源:John Schnobrich)
想了解更多來自行業領袖的人工智慧和大數據資訊嗎?請參加在阿姆斯特丹、加州和倫敦舉行的人工智慧與大數據博覽會。這是一個全面的活動,與其他領先的活動共同舉行,包括智能自動化大會、BlockX、數位轉型週和網絡安全與雲端博覽會。
在這裡探索其他即將舉行的企業技術活動和網絡研討會,這些活動由 TechForge 提供支持。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!