Grok 3 終於推出了 — 每週 AI 新聞簡報 (2025年2月24日)
還有:Perplexity AI 解除 DeepSeek-R1 的審查,o3-mini 現在顯示更多思考過程
😎 網路新聞
Grok 3 Beta — 推理代理的時代。Grok 推出了 Grok 3 Beta,透過強化學習提供更優秀的推理能力,擴展計算能力和多模態理解。Grok 3 和 Grok 3 mini 在學術基準測試中表現優異,Grok 3 在 AIME’25 中獲得了 93.3% 的高分。Grok 3 的推理功能可以透過「思考」按鈕訪問,並與 xAI 的 DeepSearch 整合,以獲取全面的知識。Perplexity AI 開源去除審查的 DeepSeek-R1。Perplexity AI 推出了 R1 1776 模型,這是一個去除中國共產黨審查的後訓練 DeepSeek-R1 模型,同時保持高推理能力。經過人類標註者和 LLM 評審的嚴格多語言評估確認,去審查並未影響模型的核心推理能力,在各種敏感主題上表現與基礎 R1 模型相當。OpenAI 現在揭示了更多 o3-mini 模型的思考過程。OpenAI 更新了 o3-mini 模型,顯示更多的「推理」步驟,以回應 DeepSeek 的競爭。新的「思考鏈」功能展示了模型決策過程的詳細摘要,增強了用戶的理解和信心。雖然並非完全透明,但這次更新在競爭考量和用戶需求之間取得了平衡,提供了多語言的更清晰和可及性。推出 SWE-Lancer 基準。SWE-Lancer 推出了一個基準,包含來自 Upwork 的 1,400 多個自由軟體工程任務,總價值達 100 萬美元。它評估模型在任務上的表現,涵蓋從 50 美元的錯誤修正到 32,000 美元的功能實現,並通過工程師驗證的測試進行評估。前沿模型在大多數任務上表現不佳。Together AI 宣布獲得 3.05 億美元的 B 輪融資。Together AI 獲得了 3.05 億美元的 B 輪融資,由 General Catalyst 主導,並有 NVIDIA 和 Salesforce Ventures 等知名投資者參與。這筆投資加速了其 AI 加速雲的發展,旨在開發開源和企業 AI 應用程序。紐約時報全力投入內部 AI 工具。紐約時報已經採用 AI 工具來協助編輯和產品團隊,推出了 Echo,這是一個內部摘要工具。AI 協助生成 SEO 標題、摘要和社交媒體文案,同時指導方針警告不要使用 AI 撰寫文章或輸入機密材料。儘管熱情高漲,但與 OpenAI 的法律挑戰和員工對 AI 影響的擔憂仍然存在。Meta 宣布 LlamaCon,首個生成式 AI 開發者大會。Meta 將於 4 月 29 日舉辦首屆生成式 AI 大會 LlamaCon,專注於開源 AI 的發展。儘管面臨 DeepSeek 的競爭壓力,Meta 計劃推出具有推理和多模態能力的新 Llama 模型。AI CUDA 工程師:自主 CUDA 核心發現、優化和組合。Sakana AI 推出了 AI CUDA 工程師,這是一個自主框架,自動將 PyTorch 代碼轉換為優化的 CUDA 核心,實現高達 100 倍的速度提升。通過利用進化優化,它將代碼轉換並優化,以便有效地訓練和推理 AI 模型。
📚 網路指南
Andrej Karpathy 對 Grok 3 的早期訪問評價。Andrej Karpathy 評估了 Grok 3,指出其在思考任務中的強大表現,與 OpenAI 的模型相當。儘管在幽默感和倫理敏感性方面存在問題,但在某些領域超越了 DeepSeek-R1 和 Gemini 2.0。SmolVLM2:將視頻理解帶到每個設備。SmolVLM2 推出了高效的視頻理解模型,參數範圍從 256M 到 2.2B,設計用於從手機到伺服器的設備。這些模型在視頻理解方面表現優異,應用於 iPhone 應用、VLC 整合和視頻精華生成器等。
🔬 有趣的論文和資料庫
原生稀疏注意力:硬體對齊和原生可訓練的稀疏注意力。NSA,一種原生可訓練的稀疏注意力機制,通過將算法創新與硬體對齊的優化相結合,提高了長上下文建模的效率。它實現了顯著的速度提升,並在基準測試中保持模型性能。NSA 的動態分層策略結合了粗粒度的標記壓縮和細粒度的選擇,在解碼、前向傳播和反向傳播中,在 64k 長度序列上超越了全注意力。遺忘曲線:評估長上下文模型記憶能力的可靠方法。研究揭示了目前對長上下文模型記憶的評估限制。研究人員引入了「遺忘曲線」,展示了其在不同語料類型和模型大小下的穩健性,無需提示。該方法應用於變壓器和 RNN/SSM 架構,質疑 RNN/SSM 模型的有效性,並與現有基準進行對比。Qwen2.5-VL 技術報告。Qwen2.5-VL 在物體定位、穩健的文檔解析和長視頻理解方面取得了進展。它能準確提取結構化數據並分析圖表。Qwen2.5-VL 具有動態解析度處理和窗口注意力,減少了計算開銷。MLGym:推進 AI 研究代理的新框架和基準。Meta MLGym 推出了框架和基準 MLGym-Bench,以評估 LLM 代理在 AI 研究任務上的表現。它對 GPT-4o 等模型進行基準測試,通過更好的超參數顯示改進。MLGym 支持添加任務、模型整合和新學習算法的開發,旨在推進 AI 能力。microsoft/OmniParser。OmniParser 是一種全面的方法,用於將用戶界面截圖解析為結構化且易於理解的元素,顯著提高了 GPT-4V 生成能準確對應於界面相應區域的行動的能力。CodeI/O:通過代碼輸入-輸出預測來濃縮推理模式。CodeI/O 通過將代碼轉換為輸入-輸出預測格式來增強語言模型的推理,讓模型接觸到邏輯流程規劃和決策樹遍歷等推理模式。這種方法在多個推理任務中提高了性能。
✨ 額外內容
想在你的 Medium 動態中看到這份新聞簡報和更多 AI 內容嗎?請關注我或為這篇故事點贊!想通過電子郵件接收這份新聞簡報嗎?這是免費的,你可以訂閱以通過電子郵件接收我的文章。我只會發送這份新聞簡報。想在 LinkedIn 閱讀 AI、機器學習、新聞、論文等的解釋嗎?請關注生成式 AI 中心頁面!
謝謝你的閱讀!
Grok 3 終於推出了 — 每週 AI 新聞簡報 (2025年2月24日) 最初發表於 Generative AI 的 Medium,大家正在繼續討論,並對這個故事進行標記和回應。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!