提升開放語言模型的標準

Ai2 正在推出 OLMo 2，這是一系列開源語言模型，旨在推進 AI 的民主化，縮小開放解決方案與專有解決方案之間的差距。

這些新模型可提供 7B 和 13B 參數版本，訓練數據多達 5 兆標記，表現水準與同類完全開放模型相當或超過，同時在英語學術基準上與如 Llama 3.1 的開放權重模型保持競爭力。

“自從 2024 年 2 月首次發布 OLMo 以來，我們已經看到開放語言模型生態系統的快速增長，以及開放模型與專有模型之間性能差距的縮小，”Ai2 解釋道。

開發團隊通過幾項創新實現了這些改進，包括增強的訓練穩定性措施、分階段訓練方法和源自他們的 Tülu 3 框架的最先進後訓練方法。值得注意的技術改進包括從非參數層正規化轉換為 RMSNorm，並實施旋轉位置嵌入。

OLMo 2 模型訓練突破

訓練過程採用了複雜的兩階段方法。初始階段利用 OLMo-Mix-1124 數據集，該數據集包含約 3.9 兆標記，來源於 DCLM、Dolma、Starcoder 和 Proof Pile II。第二階段則通過 Dolmino-Mix-1124 數據集納入了精心策劃的高品質網絡數據和特定領域內容的混合。

特別值得注意的是 OLMo 2-Instruct-13B 變體，這是該系列中最強大的模型。該模型在各種基準測試中表現優於 Qwen 2.5 14B instruct、Tülu 3 8B 和 Llama 3.1 8B instruct 模型。

(來源：Ai2)

致力於開放科學

為了加強對開放科學的承諾，Ai2 已經發布了全面的文檔，包括權重、數據、代碼、配方、中間檢查點和經過指令調整的模型。這種透明度允許更廣泛的 AI 社區對結果進行全面檢查和重現。

此次發布還引入了一個名為 OLMES（開放語言建模評估系統）的評估框架，包含 20 個基準，旨在評估核心能力，如知識回憶、常識推理和數學推理。

OLMo 2 在開源 AI 開發中樹立了新標杆，可能加速該領域的創新步伐，同時保持透明度和可及性。

(照片由 Rick Barrett 提供)

另見：OpenAI 通過新的紅隊方法增強 AI 安全性

想了解更多關於 AI 和大數據的行業領導者嗎？請查看在阿姆斯特丹、加利福尼亞和倫敦舉行的 AI & 大數據博覽會。這個綜合性活動與其他領先活動如智慧自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會同時舉行。

探索 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。

標籤： ai2, 基準, 比較, 大型語言模型, llm, 模型, olmo, 開放源代碼, 開源, 訓練

Source link

提升開放語言模型的標準

谷歌啟動倫敦人工智慧園區

使用 AWS IAM 身份中心對 Amazon Athena 進行聯邦訪問

Related Posts

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

ServiceNow 部署 AI 代理以提升企業工作流程

谷歌推出最新的開放式人工智慧模型

阿里巴巴 Qwen QwQ-32B：縮放強化學習展示

人工智慧語音模型減少醫療轉錄錯誤

安全數據以促進更好的決策與合作：擁抱數據清理空間

使用 AWS IAM 身份中心對 Amazon Athena 進行聯邦訪問

美國將對中國獲取尖端晶片引入新限制

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

提升開放語言模型的標準

OLMo 2 模型訓練突破

致力於開放科學

谷歌啟動倫敦人工智慧園區

使用 AWS IAM 身份中心對 Amazon Athena 進行聯邦訪問

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆