Grok 3 終於推出了 — 每週 AI 通訊 (2025年2月24日)

Grok 3 終於推出了 — 每週 AI 新聞簡報 (2025年2月24日)

還有：Perplexity AI 解除 DeepSeek-R1 的審查，o3-mini 現在顯示更多思考過程

本週新聞。

😎 網路新聞

Grok 3 Beta — 推理代理的時代。Grok 推出了 Grok 3 Beta，透過強化學習提供更優秀的推理能力，擴展計算能力和多模態理解。Grok 3 和 Grok 3 mini 在學術基準測試中表現優異，Grok 3 在 AIME’25 中獲得了 93.3% 的高分。Grok 3 的推理功能可以透過「思考」按鈕訪問，並與 xAI 的 DeepSearch 整合，以獲取全面的知識。Perplexity AI 開源去除審查的 DeepSeek-R1。Perplexity AI 推出了 R1 1776 模型，這是一個去除中國共產黨審查的後訓練 DeepSeek-R1 模型，同時保持高推理能力。經過人類標註者和 LLM 評審的嚴格多語言評估確認，去審查並未影響模型的核心推理能力，在各種敏感主題上表現與基礎 R1 模型相當。OpenAI 現在揭示了更多 o3-mini 模型的思考過程。OpenAI 更新了 o3-mini 模型，顯示更多的「推理」步驟，以回應 DeepSeek 的競爭。新的「思考鏈」功能展示了模型決策過程的詳細摘要，增強了用戶的理解和信心。雖然並非完全透明，但這次更新在競爭考量和用戶需求之間取得了平衡，提供了多語言的更清晰和可及性。推出 SWE-Lancer 基準。SWE-Lancer 推出了一個基準，包含來自 Upwork 的 1,400 多個自由軟體工程任務，總價值達 100 萬美元。它評估模型在任務上的表現，涵蓋從 50 美元的錯誤修正到 32,000 美元的功能實現，並通過工程師驗證的測試進行評估。前沿模型在大多數任務上表現不佳。Together AI 宣布獲得 3.05 億美元的 B 輪融資。Together AI 獲得了 3.05 億美元的 B 輪融資，由 General Catalyst 主導，並有 NVIDIA 和 Salesforce Ventures 等知名投資者參與。這筆投資加速了其 AI 加速雲的發展，旨在開發開源和企業 AI 應用程序。紐約時報全力投入內部 AI 工具。紐約時報已經採用 AI 工具來協助編輯和產品團隊，推出了 Echo，這是一個內部摘要工具。AI 協助生成 SEO 標題、摘要和社交媒體文案，同時指導方針警告不要使用 AI 撰寫文章或輸入機密材料。儘管熱情高漲，但與 OpenAI 的法律挑戰和員工對 AI 影響的擔憂仍然存在。Meta 宣布 LlamaCon，首個生成式 AI 開發者大會。Meta 將於 4 月 29 日舉辦首屆生成式 AI 大會 LlamaCon，專注於開源 AI 的發展。儘管面臨 DeepSeek 的競爭壓力，Meta 計劃推出具有推理和多模態能力的新 Llama 模型。AI CUDA 工程師：自主 CUDA 核心發現、優化和組合。Sakana AI 推出了 AI CUDA 工程師，這是一個自主框架，自動將 PyTorch 代碼轉換為優化的 CUDA 核心，實現高達 100 倍的速度提升。通過利用進化優化，它將代碼轉換並優化，以便有效地訓練和推理 AI 模型。

📚 網路指南

Andrej Karpathy 對 Grok 3 的早期訪問評價。Andrej Karpathy 評估了 Grok 3，指出其在思考任務中的強大表現，與 OpenAI 的模型相當。儘管在幽默感和倫理敏感性方面存在問題，但在某些領域超越了 DeepSeek-R1 和 Gemini 2.0。SmolVLM2：將視頻理解帶到每個設備。SmolVLM2 推出了高效的視頻理解模型，參數範圍從 256M 到 2.2B，設計用於從手機到伺服器的設備。這些模型在視頻理解方面表現優異，應用於 iPhone 應用、VLC 整合和視頻精華生成器等。

🔬 有趣的論文和資料庫

原生稀疏注意力：硬體對齊和原生可訓練的稀疏注意力。NSA，一種原生可訓練的稀疏注意力機制，通過將算法創新與硬體對齊的優化相結合，提高了長上下文建模的效率。它實現了顯著的速度提升，並在基準測試中保持模型性能。NSA 的動態分層策略結合了粗粒度的標記壓縮和細粒度的選擇，在解碼、前向傳播和反向傳播中，在 64k 長度序列上超越了全注意力。遺忘曲線：評估長上下文模型記憶能力的可靠方法。研究揭示了目前對長上下文模型記憶的評估限制。研究人員引入了「遺忘曲線」，展示了其在不同語料類型和模型大小下的穩健性，無需提示。該方法應用於變壓器和 RNN/SSM 架構，質疑 RNN/SSM 模型的有效性，並與現有基準進行對比。Qwen2.5-VL 技術報告。Qwen2.5-VL 在物體定位、穩健的文檔解析和長視頻理解方面取得了進展。它能準確提取結構化數據並分析圖表。Qwen2.5-VL 具有動態解析度處理和窗口注意力，減少了計算開銷。MLGym：推進 AI 研究代理的新框架和基準。Meta MLGym 推出了框架和基準 MLGym-Bench，以評估 LLM 代理在 AI 研究任務上的表現。它對 GPT-4o 等模型進行基準測試，通過更好的超參數顯示改進。MLGym 支持添加任務、模型整合和新學習算法的開發，旨在推進 AI 能力。microsoft/OmniParser。OmniParser 是一種全面的方法，用於將用戶界面截圖解析為結構化且易於理解的元素，顯著提高了 GPT-4V 生成能準確對應於界面相應區域的行動的能力。CodeI/O：通過代碼輸入-輸出預測來濃縮推理模式。CodeI/O 通過將代碼轉換為輸入-輸出預測格式來增強語言模型的推理，讓模型接觸到邏輯流程規劃和決策樹遍歷等推理模式。這種方法在多個推理任務中提高了性能。

✨ 額外內容

想在你的 Medium 動態中看到這份新聞簡報和更多 AI 內容嗎？請關注我或為這篇故事點贊！想通過電子郵件接收這份新聞簡報嗎？這是免費的，你可以訂閱以通過電子郵件接收我的文章。我只會發送這份新聞簡報。想在 LinkedIn 閱讀 AI、機器學習、新聞、論文等的解釋嗎？請關注生成式 AI 中心頁面！

謝謝你的閱讀！

Grok 3 終於推出了 — 每週 AI 新聞簡報 (2025年2月24日) 最初發表於 Generative AI 的 Medium，大家正在繼續討論，並對這個故事進行標記和回應。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 2025年2月24日 grok 終於推出了每週通訊

Grok 3 終於推出了 — 每週 AI 通訊 (2025年2月24日)

資料外洩的後果

NVIDIA Earth-2 特色首代人工智慧驅動美國大陸天氣超解析度

Related Posts

OpenAI 正在開發代理人 — 每週 AI 通訊 (2025 年 3 月 17 日)

什麼是自然語言語義學？

阿拉伯方言的詞彙距離研究：全面概述

阿里巴巴發布 QwQ-32B 並附上理由 — 每週 AI 通訊 (2025 年 3 月 10 日)

GPT 4.5 發佈！ — 每週 AI 通訊 (2025 年 3 月 3 日)

自然語言處理的主要關鍵領域

NVIDIA Earth-2 特色首代人工智慧驅動美國大陸天氣超解析度

機器人部落格 | 北萊茵-威斯特法倫州每年資助波恩德國博物館200萬歐元

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Grok 3 終於推出了 — 每週 AI 通訊 (2025年2月24日)

Grok 3 終於推出了 — 每週 AI 新聞簡報 (2025年2月24日)

還有：Perplexity AI 解除 DeepSeek-R1 的審查，o3-mini 現在顯示更多思考過程

😎 網路新聞

📚 網路指南

🔬 有趣的論文和資料庫

✨ 額外內容

資料外洩的後果

NVIDIA Earth-2 特色首代人工智慧 驅動美國大陸天氣超解析度

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

NVIDIA Earth-2 特色首代人工智慧驅動美國大陸天氣超解析度

發佈留言取消回覆