大型語言模型(LLMs)在複雜推理任務中展現了卓越的能力,這得益於最近在擴展和專門訓練方法上的進展。像是 OpenAI 的 o1 和 DeepSeek R1 等模型在解決推理問題上創下了新的標準,但它們在不同語言的表現上存在顯著差異。英語和中文在基礎模型(如 Llama 和 Qwen)的訓練數據中占主導地位,這使得資源較少的語言在能力上出現了明顯的差距。然而,這些模型在推理過程中面臨著錯誤的字符使用和語言切換等挑戰,這些問題在專注於推理的微調和強化學習過程中變得更加明顯。
為了解決資源較少語言的限制,區域性的 LLM 計畫應運而生,這些計畫通過專門的預訓練和後訓練方法來應對。像 Typhoon、Sailor、EuroLLM、Aya、Sea-lion 和 SeaLLM 等專案,專注於為特定目標語言調整模型。然而,這種以數據為中心的推理能力調整方法在推理模型數據配方上缺乏透明度。此外,擴展需要大量的計算資源,DeepSeek R1 70B 的蒸餾和一般 SFT 需要 80 萬個範例,這遠遠超過了像 Sky-T1 和 Bespoke-Stratos 等學術努力。模型合併作為一種替代方法出現,顯示出結合多個專門模型權重以提升任務表現的潛力,而不需要額外的訓練。
來自泰國曼谷的 SCB 10X R&D 和 SCBX Group 的研究人員提出了一種創新的方法,以增強語言特定 LLM 的推理能力,特別是針對泰語模型。這項研究結合了數據選擇和模型合併的方法,以納入類似 DeepSeek R1 的先進推理能力,同時保持目標語言的流利度。該研究解決了提升資源較少語言模型推理能力的關鍵挑戰,僅使用公開可用的數據集和 1,201 美元的適度計算預算,達到與 DeepSeek R1 相當的推理能力,而不影響目標語言任務的表現。
所實施的方法論使用 Typhoon2 70B Instruct 和 DeepSeek R1 70B Distill 作為基礎模型。該方法涉及對 Typhoon2 70B 應用監督微調(SFT),並與 DeepSeek R1 70B 合併。訓練配置使用 LoRA,具體參數為:秩 32 和 α 值 16。系統使用序列打包,最大長度為 16,384,並結合 Liger 核心、FlashAttention-2 和 DeepSpeed ZeRO-3 來優化計算效率。訓練在 4×H100 GPU 上運行,最多可達 15 小時,使用 axolotl4,模型合併通過 Mergekit 進行。評估重點放在兩個關鍵方面:推理能力和語言任務表現,利用 AIME 2024、MATH-500 和 LiveCodeBench 等基準,並進行泰語翻譯以進行評估。
實驗結果顯示,DeepSeek R1 70B Distill 在 AIME 和 MATH500 等推理任務中表現優異,但在泰語特定任務(如 MTBench-TH 和語言準確性評估)中效果較差。Typhoon2 70B Instruct 在語言特定任務中表現強勁,但在推理挑戰中表現不佳,在 AIME 中僅達到 10% 的準確率,在 MATH500 中落後於 DeepSeek R1 超過 20%。最終模型 Typhoon2-R1-70B 結合了 DeepSeek R1 的推理能力和 Typhoon2 的泰語流利度,在語言任務上表現與 Typhoon2 相差僅 4%,同時保持相當的推理能力。這使得性能在 Typhoon2 上提升了 41.6%,在 DeepSeek R1 上提升了 12.8%。
總結來說,研究人員提出了一種增強語言特定模型推理能力的方法,通過結合專門模型。雖然研究證明 SFT 和模型合併可以有效地在有限資源下轉移推理能力,但目前的方法論仍存在一些限制。研究範圍僅限於在單一模型系列內進行兩模型設置的合併,並未優化指令調整,儘管有像 Tulu3 這樣的高質量數據集可用。在多語言推理和模型合併方面仍然面臨重大挑戰,包括缺乏文化意識的推理痕跡。儘管面臨這些挑戰,這項研究標誌著在資源不足語言中推進 LLM 能力的一步。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!