大型語言模型在我們理解人工智慧方面取得了顯著進展,但有效擴展這些模型仍然面臨挑戰。傳統的專家混合模型(Mixture-of-Experts, MoE)設計僅在每個標記上啟用一部分專家,以節省計算資源。然而,這種設計帶來了兩個顯著問題。首先,專家在處理標記時是孤立的——每個專家獨立工作,沒有任何交叉溝通。這種分離可能限制了模型在處理過程中利用多樣化觀點的能力。其次,儘管MoE架構使用稀疏激活模式,但它們仍然需要相當大的記憶體,因為即使只有少數專家在運作,整體參數數量仍然很高。這些挑戰表明,雖然MoE模型在可擴展性上邁出了一步,但其固有設計可能限制了性能和資源效率。
專家鏈(Chain-of-Experts, CoE)方法
專家鏈(CoE)提供了一種對MoE架構的深思熟慮的重新檢視,通過引入專家之間的順序溝通機制。與傳統MoE模型中獨立處理的方式不同,CoE允許標記在每層中進行一系列的迭代處理。在這種安排中,一個專家的輸出作為下一個專家的輸入,從而創建一個溝通鏈,使專家能夠在彼此的工作基礎上進行改進。這種順序互動不僅僅是堆疊層,而是促進了一種更整合的標記處理方法,每個專家根據之前的輸出來細化對標記的解釋。結果是,這個模型利用了專家的協作潛力,同時旨在更有效地使用記憶體。
技術細節和好處
CoE方法的核心是一個迭代過程,重新定義了專家之間的互動。例如,考慮一個配置為CoE-2(4/64):該模型在每個標記上進行兩次迭代,每次從64個可用專家中選擇四個專家。這種設計與傳統MoE設置形成對比,後者依賴於通過預先選定的專家進行單次處理。
CoE的一個關鍵技術元素是獨立的閘控機制。在傳統的MoE模型中,閘控功能選擇哪些專家應該處理一個標記,但這些決策是在每層每個標記上進行一次。CoE擴展了這一概念,允許每個專家的閘控決策在每次迭代中獨立進行。這種靈活性促進了一種專業化的形式,專家可以根據從早期迭代中獲得的信息調整其處理。
此外,CoE中使用的內部殘差連接進一步改善了模型。CoE在每次迭代中集成殘差連接,而不是在整個處理序列後簡單地將原始標記添加回來(外部殘差連接)。這種設計有助於保持標記信息的完整性,同時允許在每一步進行增量改進。
這些技術創新共同促成了一個模型,不僅在使用更少資源的情況下保持性能,還提供了一條更細緻的處理路徑,這對於需要分層推理的任務特別有價值。
實驗結果和見解
實證研究強調了專家鏈方法的潛力。在控制實驗中,例如在數學相關任務上的預訓練,像CoE-2(4/64)這樣的配置在相同計算條件下相比傳統MoE模型顯示出驗證損失的減少(從1.20降至1.12)。這一改進是在不增加整體記憶體或計算成本的情況下實現的,因為順序溝通使每個專家的能力得到了更有效的利用。
進一步的評估顯示,在CoE中增加迭代次數可以產生與增加單次選擇的專家數量相當甚至超過的好處。例如,即使在記憶體和計算預算保持不變的情況下,CoE配置的記憶體使用量減少了多達18%,同時達到了相似或更好的性能結果。
此外,CoE的順序設計開啟了大量的專家組合——比傳統方法多出多達823倍。這種可能的專家路徑的劇增意味著模型在處理每個標記時擁有更豐富的選擇,可能導致更穩健和專業的輸出。
這些發現表明,CoE提供了一條重新思考大型語言模型如何在效率和有效性之間取得平衡的途徑,為未來更可持續的人工智慧應用鋪平了道路。
結論
專家鏈框架代表了稀疏神經網絡設計的一次深思熟慮的演變。通過引入專家之間的順序溝通,CoE解決了傳統MoE模型中獨立標記處理和高記憶體使用的限制。這些技術創新——特別是獨立閘控機制和內部殘差連接——使擴展大型語言模型的方式變得更加高效和靈活。
雖然實驗結果仍處於初步階段,但表明CoE可以在性能和資源利用方面實現適度但有意義的改進。這一方法邀請進一步探索,特別是在未來模型架構中如何擴展或完善迭代通信。隨著這一領域的研究持續進行,CoE作為在計算效率和模型性能之間取得平衡的深思熟慮的一步,最終可能有助於更可及和可持續的人工智慧系統。
查看技術細節和GitHub頁面。所有研究的功勞都歸於這個項目的研究人員。此外,隨時關注我們的Twitter,並別忘了加入我們的80k+機器學習SubReddit。
🚨 推薦閱讀 – LG AI Research發布NEXUS:一個先進的系統,整合代理人工智慧系統和數據合規標準,以解決人工智慧數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!