推理模型的戰鬥開始了!OpenAI 發布了 Operator。
😎 網路新聞
DeepSeek 宣稱其「推理」模型在某些基準測試中超越了 OpenAI 的 o1。DeepSeek 發布了 DeepSeek-R1,這是一個在特定基準測試中與 OpenAI 的 o1 競爭的推理模型,包括 AIME 和 MATH-500。R1 在 MIT 授權下提供,使用了 6710 億個參數來提升性能,但需要強大的硬體支持。OpenAI 推出 5000 億美元的「星際之門」計畫,批評者表示懷疑。OpenAI、軟銀 (SoftBank)、甲骨文 (Oracle) 和 MGX 推出了 5000 億美元的星際之門計畫,旨在提升美國的 AI 基礎設施,並承諾創造大量工作機會和國家安全利益。批評者,包括埃隆·馬斯克 (Elon Musk),質疑該計畫的資金支持。OpenAI 澄清了資金承諾。這個計畫涉及戰略合作,將在德克薩斯州的阿比林 (Abilene) 建設數據中心。OpenAI 發布了 Operator。OpenAI 發布了 Operator,這是一個基於瀏覽器的代理,可以執行填寫表單和訂購物品等任務。Operator 由計算機使用代理模型驅動,結合了 GPT-4o 的視覺和推理能力。此功能對美國的專業用戶開放。SmolVLM 變得更小——推出 250M 和 500M 模型。Hugging Face 推出了 SmolVLM-256M 和 SmolVLM-500M,這是最小的視覺語言模型。這些模型在減少參數的同時保持強大的多模態性能,改善了 2B 模型在受限設備上的效率。更新包括更小的視覺編碼器、增強的數據混合、優化的標記化和與現有框架的兼容性,使高性能模型可用於多種應用。Perplexity AI 提出與 TikTok 合併的提議。Perplexity AI 在可能被禁的情況下,提出與 TikTok 美國版合併的提議,旨在與字節跳動 (ByteDance) 和新的股權夥伴合併,同時保留大部分現有投資者。當選總統唐納德·特朗普 (Donald Trump) 可能會延長 TikTok 的截止日期,而字節跳動則拒絕出售,更願意進行合併。微軟在 Hugging Face 上完全開源強大的 Phi-4 模型。微軟在 Hugging Face 上開源其 Phi-4 模型,揭示了其 140 億參數的系統,並以 MIT 授權供商業使用。Phi-4 在數學推理和 AI 輔助編程等任務中表現優異。Perplexity 推出 Sonar,一個 AI 搜索的 API。Perplexity 推出了 Sonar,這是一個將生成式 AI 搜索整合到應用中的 API 服務,提供實時的網路資訊回答。Sonar 的基本版本每 1000 次搜索收費 5 美元,而 Sonar Pro 提供詳細的輸出。像 Zoom 這樣的公司使用 Sonar,增強實時視頻聊天互動。介紹 Anthropic API 的引用功能。Anthropic 推出了引用功能,這是一個在其 API 中的功能,使 Claude 能夠引用原始來源文件以回應。此功能在 Google Cloud 的 Vertex AI 上可用,引用功能改善了來源驗證,提升了回憶準確性高達 15%,並增強了文檔摘要、複雜問答和客戶支持等用例,而無需文件存儲。定價遵循標準的基於標記的模型。AI 初創公司 Character AI 在網路上測試遊戲。Character AI 在其網路平台上測試遊戲以提升參與度,向選定用戶提供 Speakeasy 和 War of Words 等遊戲標題。儘管共同創始人已經離開,但一位 YouTube 高管和 Dominic Perella 現在負責,專注於娛樂。
📚 網路指南
AI 可以改善它所編寫的代碼,但你必須知道如何提問。大型語言模型可以通過迭代提示來提高代碼效率,但有效使用需要軟體開發經驗。作者的實驗表明,詳細的提示設計顯著提高了性能,儘管可能會引入錯誤。強大的背景幫助用戶從 LLM 獲得更好的結果,支持 LLM 尚無法取代軟體工程師的觀點。使用 OpenAI 的 o1 創建最先進的 AI 編程代理。作者使用 OpenAI 的 o1 開發了一個 AI 編程代理,在 SWE-Bench-Verified 上達到了最先進的狀態,解決了 64.6% 的問題。這個創新的代理使用推理技術、基於 GPT-4 的記憶組件和新穎的交叉檢查機制,顯示出比之前模型顯著的改進。
🔬 有趣的論文和資料庫
DeepSeek-R1:通過強化學習激勵 LLM 的推理能力。DeepSeek-AI 推出了 DeepSeek-R1-Zero 和 DeepSeek-R1,專注於通過強化學習增強推理能力。DeepSeek-R1-Zero 展示了顯著的推理行為,但面臨可讀性等挑戰。DeepSeek-R1 通過多階段訓練克服這些問題,達到與 OpenAI-o1–1217 相當的性能。這兩個模型以及六個精煉的密集模型都向研究社群開源。深化 LLM 思維的演變。DeepMind 研究人員介紹了 Mind Evolution,一種進化搜索策略,能夠在大型語言模型中擴展推理時間計算。它生成、重組和精煉候選回應,在自然語言規劃任務中超越了 Best-of-N 和 Sequential Revision。Mind Evolution 使用 Gemini 1.5 Pro 解決了超過 98% 的 TravelPlanner 和 Natural Plan 基準,無需正式求解器。O1-Pruner:針對 O1 類推理修剪的長度和諧微調。作者介紹了 O1-Pruner,一種微調方法,能在保持準確性的同時減少 OpenAI 的 O1 等長推理模型的推理時間。通過使用強化學習風格的微調,該方法生成更短的推理過程,而不損失精度,在數學基準上實現了顯著的準確性和效率提升。Agent-R:通過迭代自我訓練訓練語言模型代理進行反思。Agent-R 使語言模型代理能夠通過動態構建自我批評數據集來糾正錯誤。使用 MCTS,Agent-R 確定軌跡中的錯誤步驟,實現及時的反思和修正。在互動環境中的實驗顯示,該模型的錯誤恢復能力比基線方法提高了 5.59%,增強了代理的表現,無需循環。Transformer2:自適應 LLM。SakanaAI 推出了 Transformer²,一個自適應框架,使大型語言模型能夠通過調整特定的權重矩陣組件來實時處理新任務。在推理過程中,雙通道機制識別任務特性並動態混合訓練的「專家」向量,利用強化學習有效實現目標提示行為。
✨ 額外內容
想在 LinkedIn 上閱讀 AI、機器學習、新聞、論文等的解釋嗎?請關注生成式 AI 中心頁面!想在 Medium 動態中看到這個新聞稿和更多 AI 內容嗎?請關注我和/或為這篇文章點讚!想通過電子郵件接收這個新聞稿嗎?這是免費的,你可以訂閱以通過電子郵件接收我的文章。我只會發送這個新聞稿。
謝謝你的閱讀!
DeepSeek-R1 與 OpenAI 的 o1 平起平坐——每週 AI 通訊(2025 年 1 月 27 日)最初發表在 Generative AI 的 Medium 上,人們繼續通過強調和回應這個故事來進行討論。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!