星期一, 28 7 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

Qwen AI 發布 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M:允許上下文長度達到 1M 令牌的部署

2025-01-27
in AI 綜合新聞
0 0
0
Qwen AI 發布 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M:允許上下文長度達到 1M 令牌的部署
Share on FacebookShare on Twitter
Your Ad


大型語言模型(LLMs)的進步大幅提升了自然語言處理(NLP)的能力,讓我們能夠進行上下文理解、程式碼生成和推理等操作。然而,仍然有一個主要的限制:上下文窗口的大小有限。大多數LLMs只能處理固定量的文字,通常最多只能到128K個標記,這限制了它們處理需要大量上下文的任務,例如分析長文件或除錯大型程式碼庫。這些限制常常需要透過文本分塊等方法來解決,增加了計算的複雜性。要克服這些挑戰,需要能夠有效延長上下文長度而不影響性能的模型。

Qwen AI的最新發布

Qwen AI推出了兩個新模型,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,這些模型設計用來支持最多達到100萬個標記的上下文長度。這些模型由阿里巴巴集團的Qwen團隊開發,並附帶了一個開源的推理框架,專門優化用於處理長上下文。這一進步使開發者和研究人員能夠在一次處理中使用更大的數據集,為需要延長上下文處理的應用提供了實用的解決方案。此外,這些模型在稀疏注意力機制和內核優化方面也有所改進,從而使長輸入的處理時間更快。

技術細節與好處

Qwen2.5-1M系列保留了基於Transformer的架構,並結合了分組查詢注意力(GQA)、旋轉位置嵌入(RoPE)和RMSNorm等特性,以保持長上下文的穩定性。訓練過程中使用了自然和合成數據集,通過填空(FIM)、段落重排序和基於位置的檢索等任務來增強模型處理長距離依賴的能力。稀疏注意力方法如雙塊注意力(DCA)通過將序列分成可管理的塊來實現高效推理。漸進式預訓練策略逐步將上下文長度從4K擴展到1M個標記,優化效率的同時控制計算需求。這些模型完全兼容vLLM的開源推理框架,簡化了開發者的整合過程。

結果與見解

基準測試結果顯示Qwen2.5-1M模型的能力。在密碼檢索測試中,7B和14B變體成功從100萬個標記中檢索到隱藏的信息,展示了它們在長上下文場景中的有效性。在其他基準測試中,包括RULER和稻草堆中的針(NIAH),14B模型的表現超過了GPT-4o-mini和Llama-3等替代品。稀疏注意力技術有助於縮短推理時間,在Nvidia H20 GPU上實現了高達6.7倍的加速。這些結果突顯了這些模型在高效能和高性能之間的良好結合,使其適合需要大量上下文的實際應用。

結論

Qwen2.5-1M系列通過顯著延長上下文長度,同時保持效率和可獲取性,解決了NLP中的關鍵限制。這些模型克服了長期以來困擾LLMs的限制,為從分析大型數據集到處理整個程式碼庫的應用開啟了新的可能性。憑藉在稀疏注意力、內核優化和長上下文預訓練方面的創新,Qwen2.5-1M提供了一個實用且有效的工具,用於處理複雜的、需要大量上下文的任務。

查看論文、Hugging Face上的模型和技術細節。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的70k+機器學習SubReddit。

🚨 [推薦閱讀] Nebius AI Studio擴展了視覺模型、新語言模型、嵌入和LoRA(推廣)



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: QwenQwen2.514BInstruct1M允許上下文長度達到Qwen2.57BInstruct1M令牌的部署和發布
Previous Post

Meet Open R1: 深度探索R1的完整開放重現,挑戰現有專有LLM的現狀

Next Post

什麼是銷售助理軟體?

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
什麼是銷售助理軟體?

什麼是銷售助理軟體?

東南亞數位銀行如何利用生成式人工智慧超越傳統銀行

東南亞數位銀行如何利用生成式人工智慧超越傳統銀行

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。