Cohere 發布指令 A：一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型，專為企業設計

大型語言模型（LLMs）廣泛應用於對話式人工智慧、內容生成和企業自動化。然而，在這個領域中，平衡性能和計算效率是一個主要挑戰。許多最先進的模型需要大量的硬體資源，這對於小型企業來說並不實用。對於成本效益高的人工智慧解決方案的需求，促使研究人員開發出能在較低計算需求下提供高性能的模型。

訓練和部署人工智慧模型對研究人員和企業來說都是挑戰。大型模型需要大量的計算能力，這使得維護成本高昂。此外，人工智慧模型必須處理多語言任務，確保高指令遵循準確性，並支持數據分析、自動化和編碼等企業應用。目前市場上的解決方案雖然有效，但通常需要超出許多企業能力的基礎設施。挑戰在於優化人工智慧模型，以提高處理效率，同時不妥協準確性或功能性。

目前市場上有幾個人工智慧模型佔據主導地位，包括 GPT-4o 和 DeepSeek-V3。這些模型在自然語言處理和生成方面表現優異，但需要高端硬體，有時需要多達 32 個 GPU 才能有效運作。雖然它們在文本生成、多語言支持和編碼方面提供了先進的能力，但其硬體依賴性限制了可及性。有些模型在企業級的指令遵循準確性和工具整合方面也面臨挑戰。企業需要能在保持競爭性能的同時，減少基礎設施和部署成本的人工智慧解決方案。這種需求促使人們努力優化語言模型，使其能在最小的硬體需求下運行。

Cohere 的研究人員推出了 Command A，這是一個高性能的人工智慧模型，專為需要最大效率的企業應用而設計。與傳統模型需要大量計算資源不同，Command A 只需兩個 GPU 即可運行，同時保持競爭性能。該模型擁有 1110 億個參數，支持 256K 的上下文長度，適合處理長篇文檔的企業應用。它能有效處理商業關鍵的代理和多語言任務，使其與前任模型區別開來。該模型已經過優化，能提供高質量的文本生成，同時降低運營成本，成為希望利用人工智慧進行各種應用的企業的成本效益替代方案。

Command A 的底層技術基於優化的變壓器架構，包含三層滑動窗口注意力，每層的窗口大小為 4096 個標記。這一機制增強了局部上下文建模，使模型能在長文本輸入中保留重要細節。第四層則整合了全球注意力，沒有位置嵌入，允許整個序列中的標記之間無限制的互動。該模型的監督微調和偏好訓練進一步提升了其對準確性、安全性和有用性的響應能力。此外，Command A 支持 23 種語言，使其成為全球業務中最具多樣性的人工智慧模型之一。其聊天能力已預配置為互動行為，使其能無縫應用於對話式人工智慧。

性能評估顯示，Command A 在各種以企業為重點的基準測試中，與領先的人工智慧模型如 GPT-4o 和 DeepSeek-V3 競爭良好。該模型的標記生成速率為每秒 156 個標記，比 GPT-4o 高 1.75 倍，比 DeepSeek-V3 高 2.4 倍，使其成為可用的最有效模型之一。在成本效率方面，Command A 的私有部署比基於 API 的替代方案便宜多達 50%，顯著減輕了企業的財務負擔。Command A 在指令遵循任務、基於 SQL 的查詢和檢索增強生成（RAG）應用中也表現出色。它在真實世界的企業數據評估中顯示出高準確性，在多語言商業用例中超越了競爭對手。

在企業任務性能的直接比較中，人類評估結果顯示 Command A 在流暢性、忠實性和回應實用性方面始終優於其競爭對手。該模型的企業級能力包括強大的檢索增強生成，並附有可驗證的引用、高級代理工具使用和高級安全措施，以保護敏感的商業數據。其多語言能力不僅限於簡單翻譯，還在特定地區方言的準確回應上表現出色。例如，對阿拉伯方言的評估，包括埃及、沙烏地阿拉伯、敘利亞和摩洛哥阿拉伯語，顯示 Command A 提供的回應比領先的人工智慧模型更精確且更具上下文適用性。這些結果強調了其在語言多樣性至關重要的全球企業環境中的強大適用性。

研究的幾個關鍵要點包括：

Command A 只需兩個 GPU 運行，顯著降低計算成本，同時保持高性能。

該模型擁有 1110 億個參數，專為需要大量文本處理的企業級應用進行優化。

該模型支持 256K 的上下文長度，使其能比競爭模型更有效地處理較長的企業文檔。

Command A 訓練了 23 種語言，確保全球企業的高準確性和上下文相關性。

其生成速率為每秒 156 個標記，比 GPT-4o 高 1.75 倍，比 DeepSeek-V3 高 2.4 倍。

該模型在真實世界的企業評估中始終優於競爭對手，在 SQL、代理和基於工具的任務中表現出色。

先進的 RAG 能力和可驗證的引用使其非常適合企業信息檢索應用。

Command A 的私有部署比基於 API 的模型便宜多達 50%。

該模型包括企業級安全功能，確保安全處理敏感商業數據。

在區域方言方面表現出色，使其非常適合在語言多樣的地區運營的企業。

在 Hugging Face 上查看該模型。所有研究的功勞歸於該項目的研究人員。此外，歡迎在 Twitter 上關注我們，並別忘了加入我們的 80,000 多名機器學習 SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Cohere 發布指令 A：一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型，專為企業設計

動態雙曲正切DyT：變壓器中正規化的簡化替代方案

Wandelbots對機器人編程的未來

Related Posts

中國教育改革人工智慧助力創新人才培育

AI 助力中風患者康復Devon 的 SAMueL-2 計畫創新突破

2027 年 AI 預測人類水平 AI 的全新里程碑

全球AI教育市場蓬勃發展智慧學習工具引領新趨勢

AI 技術對人類智能的影響我們在失去什麼？

人工智慧重塑遊戲開發遊戲未來從現在開始

Wandelbots對機器人編程的未來

DeepSeek 是提醒人們以謹慎態度接觸AI未知領域的警示

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

Cohere 發布指令 A：一個具有 256K 上下文長度、23 種語言支持和 50% 成本降低的 111B 參數 AI 模型，專為企業設計

動態雙曲正切DyT：變壓器中正規化的簡化替代方案

Wandelbots對機器人編程的未來

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆