NVIDIA 研究推出 ChipAlign：一種新穎的 AI 方法，利用無需訓練的模型合併策略，結合通用指令對齊 LLM 與特定晶片 LLM 的優勢

大型語言模型（LLMs）在各行各業中找到了應用，能自動化任務並提升決策能力。然而，當這些模型應用於像晶片設計這樣的專業領域時，會面臨獨特的挑戰。像是 NVIDIA（英偉達）的 ChipNeMo 等專業調整模型，通常在指令對齊方面表現不佳，也就是說，它們不容易準確地遵循人類的指令。這個限制使得它們在生成準確的電子設計自動化（EDA）腳本或協助硬體工程師方面的效果降低。要讓這些模型真正有用，它們需要結合強大的專業知識和可靠的指令跟隨能力，而這一點目前仍然存在很大的空白。

NVIDIA（英偉達）研究推出 ChipAlign

NVIDIA 的 ChipAlign 透過結合通用指令對齊 LLM 和晶片專用 LLM 的優勢來解決這些挑戰。這種方法避免了需要大量重新訓練，而是採用無需訓練的模型合併策略。其核心是測地插值，這是一種將模型權重視為幾何空間中的點的方法，使它們的能力能夠平滑整合。

與傳統的多任務學習不同，ChipAlign 直接結合預訓練模型，這樣可以確保最終模型保留兩個輸入的優勢，為將專業知識與指令對齊整合提供了一個實用的解決方案。

技術細節和優勢

ChipAlign 透過一系列精心設計的步驟來實現其結果。晶片專用和指令對齊 LLM 的權重被投影到單位 n-球面上，允許沿著兩組之間的最短路徑進行測地插值。融合的權重隨後被重新縮放，以保持其原有特性。

ChipAlign 的主要優勢包括：

無需重新訓練：該方法消除了對專有數據集的依賴以及重新訓練的成本。

改善指令對齊：在指令跟隨基準測試中，實現了 26.6% 的顯著提升。

保留專業知識：在 EDA 任務、電路設計和相關領域中保留關鍵知識。

效率：ChipAlign 具有線性時間複雜度，能夠在不過度計算需求的情況下處理大規模模型。

結果和見解

基準測試結果顯示 ChipAlign 的有效性：

在 IFEval 基準測試中，ChipAlign 在指令對齊方面顯示出 26.6% 的提升。

在專業任務中，例如 OpenROAD QA 基準測試，與其他模型合併技術相比，ROUGE-L 分數提高了最多 6.4%。

在工業晶片 QA 中，ChipAlign 在單回合和多回合場景中超越基準模型，提升幅度達到 8.25%。

敏感度分析顯示，將超參數 λ 設置為 0.6 可以最佳平衡指令對齊與專業知識。

結論

ChipAlign 展示了創新技術如何彌補大型語言模型能力的差距。通過將專業知識與強大的指令跟隨能力結合，它為晶片設計中的挑戰提供了一個實用的解決方案。這種方法也可能激發其他專業領域的進步，強調了可適應和高效的 AI 解決方案日益重要。NVIDIA 的工作突顯了深思熟慮的設計如何使 AI 工具更有效且更具廣泛應用性。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！