大型語言模型 (LLMs) 是使用變壓器架構建造的,這些模型在預訓練時需要大量數據來預測連續的標記。這個過程非常複雜且需要大量資源,必須有強大的計算基礎設施和良好的數據處理流程。隨著對高效且可獲得的 LLMs 需求的增加,研究人員開始探索平衡資源使用和性能的技術,強調在不依賴行業級資源的情況下達到競爭性的結果。
開發 LLMs 面臨許多挑戰,特別是在計算和數據效率方面。預訓練擁有數十億參數的模型需要先進的技術和大量的基礎設施。高品質的數據和強大的訓練方法至關重要,因為模型在訓練過程中會面臨梯度不穩定和性能下降的問題。開源的 LLMs 通常因為計算能力和高品質數據集的有限獲取而難以與專有模型相匹敵。因此,挑戰在於創建高效且高性能的模型,使得較小的研究團隊能夠積極參與推進人工智慧技術。解決這個問題需要在數據處理、訓練穩定性和架構設計方面進行創新。
現有的 LLM 訓練研究強調結構化數據流程,使用數據清理、動態排程和課程學習等技術來改善學習結果。然而,穩定性仍然是一個持續存在的問題。大規模訓練容易受到梯度爆炸、損失尖峰和其他技術困難的影響,需要仔細的優化。訓練長上下文模型會增加額外的複雜性,因為注意機制的計算需求隨著序列長度的增加而呈平方增長。現有的方法如先進的優化器、初始化策略和合成數據生成有助於緩解這些問題,但在擴展到全尺寸模型時往往不夠有效。因此,對於可擴展、穩定和高效的 LLM 訓練方法的需求比以往任何時候都更為迫切。
中國人民大學高靈人工智慧學院的研究人員開發了 YuLan-Mini。這個擁有 24.2 億參數的語言模型通過數據高效的方法提高了計算效率和性能。通過利用公開可用的數據並專注於數據高效的訓練技術,YuLan-Mini 在性能上達到了與更大型行業模型相當的驚人成就。
YuLan-Mini 的架構包含幾個創新元素,以提高訓練效率。它的解碼器僅變壓器設計採用了嵌入綁定來減少參數大小並改善訓練穩定性。該模型使用旋轉位置嵌入 (ROPE) 有效處理長上下文,將上下文長度擴展到 28,672 個標記,這比典型模型更具進步性。其他關鍵特徵包括 SwiGLU 激活函數,以改善數據表示,以及精心設計的退火策略,這在最大化學習效率的同時穩定了訓練。合成數據在訓練中至關重要,補充了來自公開網頁、代碼庫和數學數據集的 1.08 兆標記的訓練數據。這些特徵使 YuLan-Mini 能夠在有限的計算預算下提供強大的性能。
YuLan-Mini 的表現得分在 HumanEval 的零-shot 情境中達到 64.00,在 MATH-500 的四-shot 設定中達到 37.80,在 MMLU 的五-shot 任務中達到 49.10。這些結果突顯了它的競爭優勢,因為該模型的性能可與更大型且資源密集的模型相媲美。將上下文長度擴展到 28K 標記的創新使 YuLan-Mini 在長文本情境中表現出色,同時在短文本任務中仍保持高準確性。這種雙重能力使其與許多現有模型區別開來,後者通常在兩者之間做出妥協。
這項研究的主要收穫包括:
- 通過精心設計的數據流程,YuLan-Mini 減少了對大型數據集的依賴,同時確保高品質的學習。
- 系統優化和退火等技術防止了損失尖峰和梯度爆炸等常見問題。
- 將上下文長度擴展到 28,672 個標記增強了模型在複雜長文本任務中的適用性。
- 儘管計算需求適中,YuLan-Mini 的結果與更大型模型相當,展示了其設計的有效性。
- 合成數據的整合改善了訓練結果,減少了對專有數據集的需求。
總結來說,YuLan-Mini 是一個很棒的新模型,為高效的 LLMs 發展增添了新意。它能在有限資源下提供高性能,解決了人工智慧可獲得性的重要障礙。研究團隊專注於從數據效率到訓練穩定性的創新技術,突顯了小型研究團隊在該領域做出重大貢獻的潛力。擁有 1.08 兆標記,YuLan-Mini 為資源高效的 LLMs 設立了基準。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。別忘了加入我們的 60k+ ML SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 級模型,提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越的全球領導地位鋪平道路……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!