艾倫人工智慧研究所（AI2）發布 OLMo 32B：一個完全開放的模型，旨在超越 GPT 3.5 和 GPT-4o mini 在多技能基準測試中的表現

人工智慧 (AI) 的快速發展帶來了一個全新的時代，讓大型語言模型 (LLMs) 能夠理解和生成類似人類的文字。然而，許多這些模型的專有性質使得研究社群在可及性、合作和透明度方面面臨挑戰。此外，訓練這些模型所需的龐大計算資源，往往限制了只有資金充足的組織能參與，這也妨礙了更廣泛的創新。

為了解決這些問題，艾倫人工智慧研究所 (Allen Institute for AI, AI2) 推出了 OLMo 2 32B，這是 OLMo 2 系列中最新和最先進的模型。這個模型的特點是，它是第一個完全開放的模型，超越了 GPT-3.5 Turbo 和 GPT-4o mini，在多項廣為認可的學術基準測試中表現出色。AI2 透過免費提供所有數據、代碼、權重和訓練細節，促進了開放和合作的文化，使全球的研究人員能夠在這項工作上進行進一步的研究。

OLMo 2 32B 的架構包含 320 億個參數，這比它的前身有了顯著的擴展。訓練過程分為兩個主要階段：預訓練和中期訓練。在預訓練階段，模型接觸了來自不同來源的約 3.9 兆個標記，包括 DCLM、Dolma、Starcoder 和 Proof Pile II，確保了對語言模式的全面理解。中期訓練階段則使用了 Dolmino 數據集，該數據集包含 8430 億個經過質量篩選的標記，涵蓋了教育、數學和學術內容。這種分階段的訓練方式確保了 OLMo 2 32B 對語言的理解更加穩健和細緻。

OLMo 2 32B 的一個顯著特點是其訓練效率。該模型在性能上達到了與領先的開放權重模型相當的水平，但所需的計算資源卻僅為其三分之一，這突顯了 AI2 在資源高效的 AI 開發上的承諾。

在基準評估中，OLMo 2 32B 展現了令人印象深刻的結果。它的表現與 GPT-3.5 Turbo、GPT-4o mini、Qwen 2.5 32B 和 Mistral 24B 等模型相當或超越。此外，它的表現接近於更大型的模型，如 Qwen 2.5 72B 和 Llama 3.1 及 3.3 70B。這些評估涵蓋了各種任務，包括大規模多任務語言理解 (MMLU)、數學問題解決 (MATH) 和指令遵循評估 (IFEval)，突顯了該模型在多樣語言挑戰中的靈活性和能力。

OLMo 2 32B 的發布標誌著在開放和可及的 AI 追求中邁出了重要的一步。通過提供一個完全開放的模型，不僅與某些專有模型競爭，還超越了它們，AI2 展示了如何通過深思熟慮的擴展和高效的訓練方法實現重大突破。這種開放性促進了更具包容性和合作的環境，使全球的研究人員和開發者能夠參與並貢獻於不斷發展的人工智慧領域。

查看技術細節、HF 項目和 GitHub 頁面。所有研究的功勞都歸於這個項目的研究人員。此外，隨時在 Twitter 上關注我們，別忘了加入我們的 80k+ 機器學習 SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！