DeepSeek AI 發布 DeepGEMM:一個支持密集和 MoE GEMM 的 FP8 GEMM 庫,為 V3/R1 訓練和推理提供動力 by AI 台灣 2025-02-26 0 有效的矩陣乘法在現代深度學習和高效能計算 ...
月球計畫 AI 研究介紹混合區塊注意力 (MoBA):一種將混合專家 (MoE) 原則應用於注意力機制的新 AI 方法 by AI 台灣 2025-02-19 0 有效處理長文本的挑戰 在自然語言處理中, ...
Qwen AI 推出 Qwen2.5-Max:一個大型 MoE LLM,經過海量數據預訓練,並以精選 SFT 和 RLHF 配方進行後訓練 by AI 台灣 2025-01-29 0 人工智慧的領域正在快速發展,越來越多的努 ...
深度探索-AI 開源深度探索-VL2 系列:三種具有混合專家 (MoE) 架構的 3B、16B 和 27B 參數模型,重新定義視覺-語言 AI by AI 台灣 2024-12-16 0 將視覺和語言能力結合在人工智慧(AI)中 ...