阿里巴巴推出 QwQ-32B 及其推理能力 — 每週 AI 通訊 (2025年3月10日)
另外:巴托 (Barto) 和薩頓 (Sutton) 獲得 2025 年圖靈獎,表彰他們在強化學習方面的貢獻
😎 網路新聞
QwQ-32B:擁抱強化學習的力量。研究人員推出了 QwQ-32B,這是一個擁有320億個參數的模型,使用強化學習來提升推理能力。儘管參數較少,QwQ-32B 透過整合類似代理的推理和反饋,表現與更大模型相當。該模型可在 Hugging Face 上獲得。AI 先驅安德魯·巴托 (Andrew Barto) 和理查德·薩頓 (Richard Sutton) 獲得 2025 年圖靈獎,以表彰他們在強化學習方面的開創性貢獻。安德魯·巴托和理查德·薩頓因其在強化學習上的開創性工作獲得了2024年圖靈獎。他們的研究為 AI 奠定了重要基礎,應用範圍包括聊天機器人、自動駕駛車輛和個性化推薦。他們的工作還橋接了 AI 和神經科學,揭示了多巴胺在人類和機器學習中的作用。
OpenAI 據報導計劃對專業 AI「代理」收取每月高達 2 萬美元的費用。OpenAI 計劃對專為銷售線索管理、軟體工程和博士級研究等任務量身定做的專業 AI 代理收取每月高達 2 萬美元的費用。軟銀 (SoftBank) 作為主要投資者,已承諾為這些代理提供 30 億美元的資金。OpenAI 希望通過這項收入來彌補去年因運營成本損失的約 50 億美元。
Anthropic 在 615 億美元的估值下完成 E 輪融資。Anthropic 獲得了 35 億美元的資金,估值達到 615 億美元,Lightspeed Venture Partners 領投。Zoom 和輝瑞 (Pfizer) 等企業利用 Anthropic 的 Claude 進行業務轉型,反映出該公司在推進 AI 方面的承諾。
Mistral 新增一個 API,將任何 PDF 文件轉換為 AI 準備的 Markdown 文件。Mistral 推出了 Mistral OCR,這是一個多模態的 OCR API,可以將 PDF 轉換為 AI 準備的 Markdown 文件,方便 AI 模型的使用。它在處理複雜和非英語文件方面的表現超過了競爭對手,並能夠整合到 RAG 系統中。Mistral OCR 可在其 API 平台和雲端合作夥伴上使用,並提供本地部署以處理敏感數據。
AI 概述正在進行 Gemini 2.0 升級,並擴展到更多人群。谷歌 (Google) 通過推出 Gemini 2.0 來增強 AI 概述,擴展編碼、數學和多模態查詢的能力,以便更快、更高質量的回應。AI 模式在搜索中提供先進的推理,允許複雜查詢和後續問題,利用谷歌的信息系統提供全面的答案。
Anthropic 與美國國家實驗室合作,舉辦首屆 1000 科學家 AI Jam。Anthropic 與美國能源部合作啟動了首屆 1000 科學家 AI Jam,涉及國家實驗室的科學家測試 Claude 3.7 Sonnet,這是一個混合推理模型。這項合作旨在通過評估 AI 在科學研究和國家安全中的能力,加速科學發現,並在此基礎上建立 Anthropic 與能源部及國家核安全管理局的現有夥伴關係。
Opera 正在開發 AI 瀏覽器操作員。Opera 推出了瀏覽器操作員,這是一個設計用於在其瀏覽器內高效自動化任務的 AI 代理,強調用戶隱私,因為它在本地運行而不將敏感數據發送到伺服器。這一整合利用 AI 進行在線購物等任務,讓用戶在控制和互動過程中保持數據的所有權,並提高瀏覽效率。
微軟 (Microsoft) 推出的 Dragon Copilot 提供醫療行業首個統一的語音 AI 助手。微軟推出了 Dragon Copilot,這是一個為醫療設計的統一 AI 語音助手。旨在減輕臨床醫生的疲勞並簡化文檔工作,Dragon Copilot 旨在提高效率和患者體驗,同時支持各種環境中的醫療工作者,具備先進的語音和任務自動化能力,並在特定地區推出。
📚 網路指南
變壓器架構的變化。自2017年以來,變壓器架構經過改進,增加了旋轉位置嵌入、預層正規化和分組查詢注意力等功能。這些改進優化了訓練穩定性、上下文處理和計算效率。變壓器現在可以處理更大的數據,減少填充並改善位置跟踪,這對於更有效地處理擁有數十億參數的模型在現代自然語言處理任務中至關重要。
你需要知道的知識蒸餾。知識蒸餾是一種將知識從較大模型轉移到較小模型的方法,仍然是關鍵。這一方法於2006年提出,減少了計算需求,同時保持準確性。由 DeepSeek 和其他公司推進,這在各種應用中都有效。挑戰包括教師模型的偏見和計算需求。儘管存在限制,知識蒸餾仍然豐富了模型的效率。
AI 正在摧毀一些公司,但其他公司卻蓬勃發展——讓我們看看數據。AI 驅動的創新正在重塑內容網站,導致 WebMD、Quora、Stack Overflow、Chegg、G2 和 CNET 的流量下降,因為 AI 能夠提供即時答案。與此同時,Reddit、Wikipedia 和 Substack 仍然保持強勁的流量,利用真實的用戶生成內容。AI 的重要里程碑包括 ChatGPT 的推出、GPT-4 的發布和谷歌 AI 概述的推出,加速了這一技術的轉變。
DeepSeek-V3/R1 推理系統概述。DeepSeek-V3/R1 推理系統使用跨節點專家並行技術來提高吞吐量並最小化延遲,通過有效地擴展批次大小和在 GPU 之間分配工作負載來實現。先進的負載平衡和計算-通信重疊提高了性能。
🔬 有趣的論文和資料庫
Phi-4-Mini 技術報告:通過混合 LoRA 獲得緊湊而強大的多模態語言模型。Phi-4-Mini 是一個強大的 38 億參數語言模型,因為其精心策劃的數據,在數學和編碼任務中表現優於類似模型。其擴展的詞彙支持多語言使用。Phi-4-Multimodal 整合了文本、視覺和語音,使用 LoRA 適配器進行高效的多模態推理。它在各種任務中表現出色,超越了更大的模型,同時保持緊湊性。
自學推理者與工具。研究人員推出了 START,一種新型推理模型,通過整合外部工具來增強大型推理模型。START 採用自學框架,使用提示推斷和提示拒絕抽樣微調等技術。在 GPQA 和 AIME 等基準測試中,START 的表現顯著超過基礎模型 QwQ-32B,達到與最先進模型相當的性能。
預測數據選擇:預測的數據就是教學的數據。研究人員提出了預測數據選擇 (PreSelect),這是一種通過使用基於 fastText 的評分來提高語言模型預訓練效率的方法。使用 PreSelect 選擇的 300 億個標記訓練的模型表現超過了使用 3000 億個普通標記訓練的模型,計算需求減少了十倍。PreSelect 在 30 億參數模型中也超越了其他方法,如 DCLM 和 FineWeb-Edu。
視覺強化微調 (Visual-RFT)。視覺強化微調 (Visual-RFT) 通過使用可驗證的獎勵函數來增強大型視覺-語言模型,適用於物體檢測和圖像分類等視覺任務。這種方法提高了特定任務的推理和適應能力,在準確性上顯著超過基準模型,顯示出其在微調視覺領域大型模型中的數據效率和獎勵驅動的有效性。
巴別 (Babel):開放的多語言大型語言模型,服務於超過90%的全球使用者。巴別推出了一個開放的多語言大型語言模型,涵蓋前25種語言,支持超過90%的全球人口。通過使用層擴展技術,巴別提升了性能,提供兩個變體:Babel-9B 用於高效使用,Babel-83B 創造新的標準,在多語言任務表現上超越類似的開放大型語言模型。
統一獎勵模型用於多模態理解和生成。統一獎勵 (UnifiedReward) 是一種新型的多模態理解和生成評估模型,改善了圖像和視頻的偏好對齊。通過在大規模人類偏好數據集上進行訓練,統一獎勵促進了成對排名和逐點評分。
✨ 額外內容
想在你的 Medium 動態中看到這份通訊和更多 AI 內容嗎?請關注我和/或為這篇文章點贊!想通過電子郵件接收這份通訊嗎?這是免費的,你可以訂閱以通過電子郵件接收我的文章。我只會發送這份通訊。想在 LinkedIn 上閱讀 AI、機器學習、新聞、論文等的解釋嗎?請關注生成 AI 中心 (Generative AI Central) 頁面!
謝謝你的閱讀!
阿里巴巴推出 QwQ-32B 及其推理能力 — 每週 AI 通訊 (2025年3月10日) 最初發表於 Generative AI 的 Medium,讀者們正在通過突出和回應這個故事來繼續討論。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!