微軟研究人員提出MH-MoE的新實現：在稀疏專家混合模型中實現FLOPs和參數平衡

機器學習正在迅速發展，特別是在需要大量數據處理的領域，例如自然語言理解和生成式AI。研究人員不斷努力設計能夠最大化計算效率的算法，同時提高大規模模型的準確性和性能。這些努力對於建立能夠管理語言表示複雜性的系統至關重要，其中精確性和資源優化是關鍵。

該領域的一個持續挑戰是平衡計算效率與模型準確性，特別是隨著神經網絡的擴展以處理越來越複雜的任務。稀疏專家混合（SMoE）架構通過使用動態參數選擇來提高性能，顯示出良好的前景。然而，這些模型在有效處理多表示空間方面往往面臨挑戰，限制了它們充分利用可用數據的能力。這種低效率促使對創新方法的需求，以利用多樣的表示空間而不妨礙計算資源。

SMoE架構傳統上使用閘控機制將令牌路由到特定的專家，以優化計算資源的使用。這些模型在各種應用中都取得了成功，特別是通過top-1和top-2閘控方法。然而，雖然這些方法在參數效率方面表現出色，但它們無法充分利用多表示數據的潛力。此外，將稀疏層嵌入Transformer框架的標準方法限制了其在保持運作效率的同時有效擴展的能力。

來自微軟的研究人員提出了一種新型的MH-MoE框架實現。這一設計基於SMoE的基礎，同時解決了其限制。MH-MoE的實現通過引入多頭機制和整合投影層，實現了對多樣表示空間的高效處理。這一方法確保了傳統SMoE模型的計算和參數效率得以保留，同時顯著提高了它們的表示能力。

MH-MoE的研究方法集中在通過精煉的多頭機制增強信息流。輸入令牌被拆分為子令牌，路由到不同的頭部，然後並行處理。這一過程通過線性投影層來促進，這些層在通過專家混合層之前和之後轉換令牌。通過調整中間維度和優化閘控機制，模型確保了與傳統SMoE模型的FLOPs平衡。在一個配置中，研究人員使用了兩個頭部，中間維度為768，並使用top-2閘控，將專家的數量增加到40。另一個配置使用了三個頭部，中間維度為512，利用top-3閘控和96個專家。這些調整顯示了MH-MoE在將計算效率與性能目標對齊方面的適應性。

實驗表明，MH-MoE在各種基準測試中始終超越現有的SMoE模型。在語言建模任務中，該模型在困惑度（模型準確性的一個指標）方面取得了顯著改善。例如，在100,000個訓練步驟後，三頭MH-MoE在RedPajama數據集上的困惑度為10.51，而細粒度SMoE為10.74，標準SMoE則為10.90。在Wiki數據集上，三頭MH-MoE的困惑度為9.18，進一步強調了其卓越的性能。此外，在使用BitNet進行1位量化的實驗中，MH-MoE保持了其性能優勢，在RedPajama數據集上經過100,000步後的困惑度為26.47，而細粒度SMoE為26.68，標準SMoE為26.78。

研究團隊進行的消融研究強調了MH-MoE設計中頭部和合併層的重要性。這些研究表明，這兩個組件對模型性能有重要貢獻，其中頭部層提供的改進幅度超過合併層。例如，添加頭部層將RedPajama數據集上的困惑度從11.97降低到11.74。這些發現強調了這些層在增強模型整合和利用多表示數據能力中的關鍵角色。

研究人員的努力促成了一個模型，解決了傳統SMoE框架的主要限制，同時為性能和效率設立了新的基準。MH-MoE通過利用多頭機制和優化計算設計，提供了一個有效擴展神經網絡的穩健解決方案。這一創新標誌著在開發高效且強大的機器學習模型方面邁出了重要一步。

查看論文。此項研究的所有功勞都歸於該項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作，你會喜歡我們的電子報。別忘了加入我們的55k+ ML SubReddit。

🎙️ 🚨 ‘大型語言模型脆弱性評估：紅隊技術的比較分析’ 閱讀完整報告（推廣）

Source link

Tags: 微軟研究人員提出MHMoE的新實現在稀疏專家混合模型中實現FLOPs和參數平衡