大型語言模型(LLMs)已成為自然語言處理、計算數學和程式設計等應用的重要工具。這些模型通常需要大量的計算資源來有效執行推理和訓練。為了減少這些需求,許多研究人員已經想出優化這些模型技術的方法。
在LLM優化中,一個主要挑戰是傳統的修剪方法是固定的。靜態修剪根據預先指定的掩碼移除不必要的參數。如果應用所需的技能是編碼或解決數學問題,這些方法就無法使用。這些方法缺乏靈活性,因為在優化計算資源的同時,通常無法保持多項任務的性能。
歷史上,像靜態結構修剪和專家混合(MoE)架構等技術被用來對抗LLMs的計算效率低下。結構修剪從特定層中移除通道或注意力頭等組件。雖然這些方法對硬體友好,但需要完全重新訓練,以避免模型準確度的損失。MoE模型則在推理過程中激活模型的部分,但會因頻繁重新加載參數而產生巨大的開銷。
蘋果公司 (Apple Inc.) 和加州大學聖巴巴拉分校 (UC Santa Barbara) 的研究人員提出了一種名為指令跟隨修剪(Instruction-Following Pruning, IFPruning)的新技術,這種技術能夠根據特定任務的需求動態調整LLMs。IFPruning使用一種稀疏性預測器,生成依賴於輸入的修剪掩碼,只選擇與特定任務最相關的參數。與傳統方法不同,這種動態方法專注於前饋神經網絡(FFN)層,讓模型能夠有效地適應多種任務,同時減少計算需求。
研究人員提出了一個兩階段的IFPruning訓練過程:第一階段,繼續在大量數據上預訓練密集模型,最大化稀疏性預測器和LLM,為後續的微調提供強大的起點。在第二階段,僅在監督微調數據集上進行訓練,使用高度多樣的任務提示和多個示例。由於稀疏性預測器的在線生成,掩碼仍然是動態的,這樣可以修剪掉不必要的權重而不影響模型性能,消除了在先前動態方法中觀察到的參數重新加載的限制。
IFPruning的性能在多個基準測試中進行了嚴格評估。例如,將一個9B參數的模型修剪到3B,編碼任務的準確度提高了8%,接近未修剪的9B模型。在像GSM8K和MATH這樣的數學數據集上,動態修剪方法的準確度提高了5%。在IFEval和AlpacaEval的指令跟隨評估中,它的表現也穩定提高了約4-6個百分點。即使在像MMLU這樣的多任務基準測試中,IFPruning也顯示出有希望的穩健結果,展現了在其他領域的多樣性。
這些結果支持了IFPruning方法的可擴展性,因為測試了不同大小的模型,包括6B、9B和12B參數;在所有情況下,修剪後都取得了重要的性能提升。從6B密集模型擴展到12B密集模型顯示,在相同條件下,效率和任務特定的準確度都有所提高。它進一步超越了傳統的結構修剪方法,如修剪 + 蒸餾,因為使用了動態稀疏機制。
IFPruning的引入標誌著LLMs優化的一個重大進展,提供了一種動態平衡效率和性能的方法。這種方法解決了靜態修剪和MoE架構的限制,為資源高效的語言模型設定了新標準。憑藉其能夠在不犧牲準確度的情況下適應多樣的輸入,IFPruning為在資源受限的設備上部署LLMs提供了一個有希望的解決方案。
這項研究將指出模型修剪的進一步發展,包括優化其他組件,如注意力頭和隱藏層。儘管今天提出的方法解決了許多計算挑戰,但在伺服器端應用和多任務修剪方面的進一步研究可以擴大其適用範圍。作為一個動態和高效的框架,IFPruning為更具適應性和可訪問的大型語言模型開啟了可能性。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。別忘了加入我們的65k+ ML SubReddit。
🚨 免費即將舉行的AI網絡研討會(2025年1月15日):使用合成數據和評估智能提升LLM準確度——參加這個網絡研討會,獲得可行的見解,以提升LLM模型的性能和準確度,同時保護數據隱私。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!