OpenAI 發布 o3-mini — 每週 AI 通訊 (2025年2月3日)
DeepSeek 發布影像模型 Janus-Pro,Meta 創建戰情室研究 DeepSeek,OpenAI 發布深度研究
😎 網路消息
OpenAI 發布 o3-mini。OpenAI 推出了 o3-mini,這是一個成本效益高的模型,能在 STEM(科學、技術、工程和數學)領域提供更好的推理能力,並有不同的推理選項。它在數學、編程和科學任務上表現優於之前的模型,同時減少延遲。開發者可以通過多個 API 訪問它,而 ChatGPT Plus、Team 和 Pro 用戶則可以享受更高的使用限制。DeepSeek 發布開源 AI 圖像生成器,隨著美國股市持續下跌。DeepSeek 發布了 Janus-Pro-7B,一個開源的 AI 圖像生成器,表現超過 DALL-E 和 Stable Diffusion。隨著 DeepSeek 的 R1 模型在 Apple 應用商店超越 ChatGPT,它面臨網路攻擊,但仍然保持服務運行。Meta 創建四個「戰情室」來解釋 DeepSeek 如何以更低的成本超越競爭對手。Meta 成立了四個「戰情室」,調查 DeepSeek 在 AI 領域的快速成功,這對像 ChatGPT 這樣的行業巨頭構成威脅。儘管其 R1 模型的投資僅為 600 萬美元,但 DeepSeek 仍然以其新的 Janus-Pro 7B 圖像模型表現出色。Meta 希望通過了解 DeepSeek 的成本削減和技術進步來提升自己的 AI Llama。Hugging Face 正在開發 Open-R1:一個完全開放的 DeepSeek-R1 重建模型。Hugging Face 正在開發 Open-R1,旨在重建 DeepSeek-R1 的推理模型,專注於透明度和可重現性。Open-R1 將提煉數據集,複製強化學習流程,並探索在推理、編程和科學領域的應用。通過分享見解和與社區互動,Hugging Face 希望共同構建先進模型,可能影響醫學等各個學科。OpenAI 發布深度研究以進行多步驟的網路研究。OpenAI 在 ChatGPT 中推出了深度研究功能,使其能夠自主進行多步驟的網路研究,以應對複雜任務。這一功能針對密集的知識工作,能將線上資訊綜合成全面的報告。Qwen2.5–1M:Qwen 的上下文長度可達 1M 令牌。Qwen 團隊發布了開源的 Qwen2.5–1M 模型,能夠處理 100 萬令牌的上下文,並在長短上下文任務中表現優於之前的版本和 GPT-4o-mini。改進包括稀疏注意機制和長度外推,導致 1M 令牌序列的推理速度提高 3.2 倍到 6.7 倍。Mistral AI 發布 Mistral Small 3。Mistral AI 推出了 Mistral Small 3,這是一個 240 億參數的模型,在低延遲生成 AI 任務中表現出色,與 Llama 3.3 70B 等更大模型競爭。該模型在 Apache 2.0 下發布,實現了超過 81% 的 MMLU 準確率和每秒 150 令牌,支持快速響應應用和本地推理,適合醫療和金融等需求高的行業。
📚 網路指南
DeepSeek R1 的複製配方及推理 LMs 的未來。DeepSeek AI 發布了其推理模型 R1,使用四階段強化學習過程。R1 擁有 MIT 許可證,提供了相對於競爭對手的顯著價格優勢。該模型包括直接從 V3 訓練的 R1-Zero 和其他開放權重變體。這一發展標誌著開源推理模型的新時代,承諾快速進步和廣泛應用。價格方面則有利於激烈競爭。推理時間計算。DeepSeek 的 R1 模型是一個設計用於邏輯任務的推理 AI,隨著其在應用商店的受歡迎程度上升,引發了對推理時間計算需求的討論。該模型展示了向更高效 AI 應用的轉變,可能隨著較小模型的增強而增加實時計算需求,影響 AI 的發展格局。訓練語音合成器。作者使用 VQ-VAE 和自回歸 Transformer 在 100 萬個合成 Siri 語音示例上訓練了一個語音合成器。儘管在訓練穩定 VQ 代碼和遇到數據預處理工件方面面臨挑戰,但通過添加尾隨控制序列,項目得到了改善。訓練使用 Swift 和 Honeycrisp 在一台 Mac Studio 上進行了幾週。自我建構代理的悖論:教 AI 自我學習。AI 從反應系統演變為主動系統,突顯了自我建構代理的重要性。作者概述了一個四級自主框架,目前的 AI 工具處於第 0 級。風險包括創建不必要的工具、妨礙隱私和財務脆弱性。現在使用哪種 AI:更新的意見指南。作者推薦像 Anthropic 的 Claude、Google 的 Gemini 和 OpenAI 的 ChatGPT 等 AI 模型作為今天的通用使用。它們提供多模態功能、推理能力和隱私選項。對於專業用戶,Grok、微軟的 Copilot 和 DeepSeek 提供額外功能。
🔬 有趣的論文和資料庫
思想四處遊走:關於 o1 類 LLM 的思考不足。研究人員發現了一種現象,稱為 o1 類大型語言模型的思考不足,頻繁在推理路徑之間切換導致性能下降。通過引入思考切換懲罰,他們在不進行微調的情況下提高了推理深度。這一方法提高了在困難數學問題上的準確性,為這些模型的推理低效提供了解決方案。DeepSeek 發布 Janus 系列:統一的多模態理解和生成模型。Deepseek-AI 發布了 Janus-Pro 系列,通過使用優化的訓練策略和更大的模型尺寸來改善多模態理解和視覺生成。JanusFlow 整合了自回歸模型和修正流,提升了在標準基準測試中的表現。SFT 記憶、RL 泛化:基礎模型後訓練的比較研究。監督式微調(SFT)和強化學習(RL)為基礎模型提供了不同的後訓練好處。RL 在對未見變化的文本和視覺進行泛化方面表現出色,而 SFT 則增強了輸出穩定性,這對有效的 RL 訓練至關重要。利用 GeneralPoints 和 V-IRL 等環境,研究顯示 RL 在複雜的多模態任務中具有更優越的視覺識別和泛化能力。s1:簡單的測試時間擴展。在語言建模中的測試時間擴展使用額外的計算來增強推理性能。研究人員開發了一種稱為預算強制的方法,將其應用於 Qwen2.5–32B-Instruct 模型。經過在精選數據集上的訓練,該模型在數學問題上超越了 OpenAI 的 o1,提升幅度達 27%。該模型、數據和代碼均可在線免費獲得。GuardReasoner:朝向基於推理的 LLM 安全保障。研究人員推出了 GuardReasoner,通過推理保障來增強 LLM 的安全性。利用 GuardReasonerTrain 數據集、推理 SFT 和難樣本 DPO,該模型在 13 個基準測試中表現出色。GuardReasoner 8B 在 F1 分數上超越了 GPT-4o+CoT 5.74% 和 LLaMA Guard 3 8B 20.84%。
✨ 額外內容
想在你的 Medium 動態中看到這份通訊和更多 AI 內容嗎?請關注我和/或為這篇故事點贊!想通過電子郵件接收這份通訊嗎?這是免費的,你可以訂閱以通過電子郵件接收我的文章。我只會發送這份通訊。想在 LinkedIn 閱讀 AI、機器學習、新聞、論文等的解釋嗎?請關注 Generative AI Central 頁面!
謝謝你的閱讀!
OpenAI 發布 o3-mini — 每週 AI 通訊 (2025年2月3日) 最初發表在 Generative AI 的 Medium 上,讀者們正在通過強調和回應這篇故事繼續討論。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!