微軟AI推出Sigma：為AI基礎設施優化量身定制的高效大型語言模型

人工智慧 (AI) 和機器學習 (ML) 的進步讓許多領域都發生了變革。不過，有一個叫做「系統領域」的部分，專注於優化和管理基礎的 AI 基礎設施，卻還沒有被充分探索。這個領域涉及一些重要的任務，例如診斷硬體問題、優化配置、管理工作負載和評估系統性能。這些任務通常因為其複雜性和對硬體、軟體及數據的深入理解而面臨重大挑戰。傳統的方法或通用的 AI 模型無法有效解決這些挑戰，導致資源浪費和容易出錯的過程。因此，迫切需要針對系統領域需求的解決方案。

為了解決這些挑戰，微軟 (Microsoft) 開發了 SIGMA，一個專門為系統領域設計的大型語言模型。SIGMA 擁有創新的架構，包括差異查詢-鍵-值 (DiffQKV) 注意力機制，並且在系統特定數據上進行了廣泛的預訓練。DiffQKV 通過為注意力機制的查詢 (Q)、鍵 (K) 和值 (V) 組件採用量身定制的策略來優化推理效率。與傳統方法將這些組件均勻壓縮不同，DiffQKV 採用選擇性壓縮，對鍵組件進行強烈壓縮，而保留值組件以維持性能。該模型還使用增強的 Q 維度，提升其表現能力而不顯著影響推理速度。

SIGMA 的預訓練包含了 6 兆個標記，其中包括來自系統領域特定來源的 195 億個標記和 1 兆個合成和重寫的標記。這種專注的訓練確保 SIGMA 在一般領域的表現與最先進的模型相當，同時在系統特定任務中表現優異。為了評估其能力，微軟推出了 AIMICIUS，這是一個專門為系統相關任務設計的基準。SIGMA 在 AIMICIUS 上的表現顯示出顯著的改進，超越了 GPT-4，絕對改進高達 52.5%。

技術細節和好處

SIGMA 創新的核心是 DiffQKV 注意力機制。這個機制利用注意力分數的稀疏性，在推理過程中選擇性地檢索值組件，減少內存使用，同時保持性能。這些優化使得推理速度比傳統的分組查詢注意力機制提高了 33.36%。此外，SIGMA 的增強 Q 維度提升了其表現能力，而不會增加顯著的內存開銷，因為查詢頭在推理過程中不需要緩存。

SIGMA 採用不平衡的頭配置，鍵頭的數量少於查詢和值頭。這樣可以減少 KV 緩存的內存佔用，同時保持性能。例如，將鍵頭的數量減少到值頭的 25% 會導致性能損失微乎其微。同樣，將鍵組件的維度減半也能實現壓縮，而不影響準確性。

該模型的訓練過程涉及仔細的數據策劃，從 120 多個系統相關網站中識別出 15 個主要來源類別。數據來源包括技術博客、開發者論壇、Stack Overflow 帖子和學術論文，形成了一個多樣且全面的數據集。這個強大的訓練基礎使得 SIGMA 在命令行生成、基礎設施基準測試、網絡拓撲優化和自然語言到 Kusto 查詢語言 (NL2KQL) 的翻譯等任務中表現出色。

結果和見解

SIGMA 在 AIMICIUS 基準上的表現突顯了其在系統領域的有效性。該基準涵蓋了四個主要任務：CMDGen、Infrawise、Optiflow 和 NL2KQL。在 CMDGen 中，SIGMA 在生成與 GPU 相關的命令行方面顯示出高準確性。在 Infrawise 中，這涉及檢索基準結果，反映了其在識別相關配置和工作負載方面的強大回憶和準確性。

在 Optiflow 中，SIGMA 展示了其優化多 GPU 設置的網絡拓撲的能力，實現了可測量的延遲減少。同樣，在 NL2KQL 中，SIGMA 將自然語言指令翻譯成 Kusto 查詢語言，準確性和語法標準的遵循都相當出色。

效率是 SIGMA 的一個重要特徵。評估顯示在長上下文場景中，內存使用和計算速度都有顯著提升。例如，SIGMA 的 KV 緩存優化使得在長序列生成過程中計算時間減少了 33%，相較於標準模型。這種效率使 SIGMA 能夠處理更大的批量和更長的序列，適合需要大量上下文處理的實際系統任務。

結論

SIGMA 代表了大型語言模型在系統領域的深思熟慮和實用應用。通過創新，例如 DiffQKV 注意力機制和領域特定的訓練，SIGMA 提供了一個專門的解決方案，平衡了效率和性能。其在 AIMICIUS 基準上的成就突顯了其作為管理和優化 AI 基礎設施的有價值工具的潛力。隨著系統領域的重要性日益增加，SIGMA 的進展為解決這一領域固有的複雜性提供了一個引人注目的模型。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 微軟AI推出Sigma為AI基礎設施優化量身定制的高效大型語言模型