星期日, 15 6 月, 2025
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
AI TAIWAN 台灣人工智慧中心
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全
No Result
View All Result
AI TAIWAN 台灣人工智慧中心
No Result
View All Result
Your Ad
Home AI 綜合新聞

YuLan-Mini:一個擁有2.42B參數的開放數據高效語言模型,具備長上下文能力和先進的訓練技術

2024-12-28
in AI 綜合新聞
0 0
0
YuLan-Mini:一個擁有2.42B參數的開放數據高效語言模型,具備長上下文能力和先進的訓練技術
Share on FacebookShare on Twitter
Your Ad


大型語言模型 (LLMs) 是使用變壓器架構建造的,這些模型在預訓練時需要大量數據來預測連續的標記。這個過程非常複雜且需要大量資源,必須有強大的計算基礎設施和良好的數據處理流程。隨著對高效且可獲得的 LLMs 需求的增加,研究人員開始探索平衡資源使用和性能的技術,強調在不依賴行業級資源的情況下達到競爭性的結果。

開發 LLMs 面臨許多挑戰,特別是在計算和數據效率方面。預訓練擁有數十億參數的模型需要先進的技術和大量的基礎設施。高品質的數據和強大的訓練方法至關重要,因為模型在訓練過程中會面臨梯度不穩定和性能下降的問題。開源的 LLMs 通常因為計算能力和高品質數據集的有限獲取而難以與專有模型相匹敵。因此,挑戰在於創建高效且高性能的模型,使得較小的研究團隊能夠積極參與推進人工智慧技術。解決這個問題需要在數據處理、訓練穩定性和架構設計方面進行創新。

現有的 LLM 訓練研究強調結構化數據流程,使用數據清理、動態排程和課程學習等技術來改善學習結果。然而,穩定性仍然是一個持續存在的問題。大規模訓練容易受到梯度爆炸、損失尖峰和其他技術困難的影響,需要仔細的優化。訓練長上下文模型會增加額外的複雜性,因為注意機制的計算需求隨著序列長度的增加而呈平方增長。現有的方法如先進的優化器、初始化策略和合成數據生成有助於緩解這些問題,但在擴展到全尺寸模型時往往不夠有效。因此,對於可擴展、穩定和高效的 LLM 訓練方法的需求比以往任何時候都更為迫切。

中國人民大學高靈人工智慧學院的研究人員開發了 YuLan-Mini。這個擁有 24.2 億參數的語言模型通過數據高效的方法提高了計算效率和性能。通過利用公開可用的數據並專注於數據高效的訓練技術,YuLan-Mini 在性能上達到了與更大型行業模型相當的驚人成就。

YuLan-Mini 的架構包含幾個創新元素,以提高訓練效率。它的解碼器僅變壓器設計採用了嵌入綁定來減少參數大小並改善訓練穩定性。該模型使用旋轉位置嵌入 (ROPE) 有效處理長上下文,將上下文長度擴展到 28,672 個標記,這比典型模型更具進步性。其他關鍵特徵包括 SwiGLU 激活函數,以改善數據表示,以及精心設計的退火策略,這在最大化學習效率的同時穩定了訓練。合成數據在訓練中至關重要,補充了來自公開網頁、代碼庫和數學數據集的 1.08 兆標記的訓練數據。這些特徵使 YuLan-Mini 能夠在有限的計算預算下提供強大的性能。

YuLan-Mini 的表現得分在 HumanEval 的零-shot 情境中達到 64.00,在 MATH-500 的四-shot 設定中達到 37.80,在 MMLU 的五-shot 任務中達到 49.10。這些結果突顯了它的競爭優勢,因為該模型的性能可與更大型且資源密集的模型相媲美。將上下文長度擴展到 28K 標記的創新使 YuLan-Mini 在長文本情境中表現出色,同時在短文本任務中仍保持高準確性。這種雙重能力使其與許多現有模型區別開來,後者通常在兩者之間做出妥協。

這項研究的主要收穫包括:

  • 通過精心設計的數據流程,YuLan-Mini 減少了對大型數據集的依賴,同時確保高品質的學習。
  • 系統優化和退火等技術防止了損失尖峰和梯度爆炸等常見問題。
  • 將上下文長度擴展到 28,672 個標記增強了模型在複雜長文本任務中的適用性。
  • 儘管計算需求適中,YuLan-Mini 的結果與更大型模型相當,展示了其設計的有效性。
  • 合成數據的整合改善了訓練結果,減少了對專有數據集的需求。

總結來說,YuLan-Mini 是一個很棒的新模型,為高效的 LLMs 發展增添了新意。它能在有限資源下提供高性能,解決了人工智慧可獲得性的重要障礙。研究團隊專注於從數據效率到訓練穩定性的創新技術,突顯了小型研究團隊在該領域做出重大貢獻的潛力。擁有 1.08 兆標記,YuLan-Mini 為資源高效的 LLMs 設立了基準。

查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60k+ ML SubReddit。

🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 級模型,提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位鋪平道路……。



新聞來源

本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!

Tags: YuLanMini一個擁有2.42B參數的開放數據高效語言模型具備長上下文能力和先進的訓練技術
Previous Post

EngineAI 發布 PM01 人形機器人用於商業和教育用途

Next Post

集體蒙特卡羅樹搜尋(CoMCTS):一種針對多模態大型語言模型的新學習推理方法

Related Posts

中國教育改革人工智慧助力創新人才培育
AI 綜合新聞

中國教育改革人工智慧助力創新人才培育

2025-06-11
AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破
AI 綜合新聞

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2025-04-24
2027 年 AI 預測人類水平 AI 的全新里程碑
AI 綜合新聞

2027 年 AI 預測人類水平 AI 的全新里程碑

2025-04-21
全球AI教育市場蓬勃發展智慧學習工具引領新趨勢
AI 綜合新聞

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

2025-04-21
AI 技術對人類智能的影響我們在失去什麼?
AI 綜合新聞

AI 技術對人類智能的影響我們在失去什麼?

2025-04-20
人工智慧重塑遊戲開發遊戲未來從現在開始
AI 綜合新聞

人工智慧重塑遊戲開發遊戲未來從現在開始

2025-04-18
Next Post
集體蒙特卡羅樹搜尋(CoMCTS):一種針對多模態大型語言模型的新學習推理方法

集體蒙特卡羅樹搜尋(CoMCTS):一種針對多模態大型語言模型的新學習推理方法

Ambi Robotics 創辦人看到新市場的「巨大機會」

Ambi Robotics 創辦人看到新市場的「巨大機會」

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Archives

  • 2025 年 6 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 5 月
  • 2023 年 3 月
  • 2023 年 1 月
  • 2022 年 12 月
  • 2022 年 11 月
  • 2022 年 5 月
  • 2022 年 4 月
  • 2022 年 1 月
  • 2021 年 11 月
  • 2021 年 8 月
  • 2021 年 5 月
  • 2021 年 3 月
  • 2021 年 1 月
  • 2020 年 12 月
  • 2020 年 10 月
  • 2020 年 9 月
  • 2019 年 7 月
  • 2018 年 11 月

Categories

  • AI 智慧產業
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • 安全
  • 機器人與自動化
  • 機器學習與應用
  • 神經連結和腦機接口
  • 自然語言處理
  • 道德與法規
Your Ad
  • 關於我們
  • 廣告合作
  • 免責聲明
  • 隱私權政策
  • DMCA
  • Cookie 隱私權政策
  • 條款與條件
  • 聯絡我們
AI TAIWAN

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • Home
  • AI 綜合新聞
  • AI 自動化與 AI Agents
  • AI 智慧產業
  • 機器學習與應用
  • 自然語言處理
  • 神經連結和腦機接口
  • 機器人與自動化
  • 道德與法規
  • 安全

版權 © 2024 AI TAIWAN.
AI TAIWAN 對外部網站的內容不負任何責任。