隨著深度學習模型的不斷發展,機器學習模型的量化變得越來越重要,而有效的壓縮技術需求也日益增加。低位元量化是一種減少模型大小的方法,同時試圖保持準確性。研究人員一直在尋找最佳的位元寬度,以在不影響性能的情況下最大化效率。雖然有許多研究探討了不同的位元寬度設置,但由於缺乏標準化的評估框架,導致結論不一致。這種持續的探索影響了大規模人工智慧模型的發展,決定了它們在內存受限環境中的可行性。
低位元量化的一個主要挑戰是找到計算效率與模型準確性之間的最佳平衡。關於哪種位元寬度最有效的爭論仍未解決,有些人認為4位元量化提供了最佳平衡,而另一些人則聲稱1.58位元模型可以達到相似的結果。然而,之前的研究缺乏統一的方法來比較不同的量化設置,這導致了不一致的結論。這一知識缺口使得在低位元精度量化中建立可靠的縮放法則變得複雜。此外,在極低位元設置中實現穩定的訓練也是一個技術挑戰,因為低位元模型與高位元模型相比,通常會經歷顯著的表徵變化。
量化方法在實施和有效性上各有不同。在以全精度訓練模型後,後訓練量化(PTQ)應用量化,這使得部署變得簡單,但在低位元寬度下容易導致準確性下降。另一方面,量化感知訓練(QAT)將量化整合到訓練過程中,使模型能更有效地適應低位元表示。其他技術,如可學習量化和混合精度策略,也被探索以微調準確性和模型大小之間的平衡。然而,這些方法缺乏一個通用的框架來進行系統評估,這使得在不同條件下比較它們的效率變得困難。
Meta的研究人員推出了ParetoQ,這是一個結構化框架,旨在統一對4位元以下量化技術的評估。這個框架允許在不同的位元寬度設置之間進行嚴格的比較,包括1位元、1.58位元、2位元、3位元和4位元量化。通過改進訓練方案和位元特定的量化函數,ParetoQ在準確性和效率上超越了之前的方法。與之前獨立優化特定位元級別的工作不同,ParetoQ建立了一個一致的評估過程,客觀比較量化的權衡。
ParetoQ採用優化的量化感知訓練策略,以最小化準確性損失,同時保持模型壓縮效率。該框架為每個位元寬度精細調整量化函數和訓練策略。這項研究的一個重要發現是,在2位元和3位元量化之間觀察到的明顯學習轉變。以3位元精度及以上訓練的模型與其原始預訓練分佈保持相似的表徵,而以2位元或更低訓練的模型則經歷劇烈的表徵變化。為了克服這一挑戰,該框架系統性地優化量化網格、訓練分配和位元特定的學習策略。
大量實驗證實了ParetoQ在現有量化方法中的優越性能。使用ParetoQ開發的600M參數的三元模型在準確性上超越了之前的3B參數的最先進三元模型,且僅使用五分之一的參數。研究顯示,2位元量化在與相同大小的4位元模型相比時,準確性提高了1.8個百分點,證明了其作為傳統4位元量化的替代方案的可行性。此外,ParetoQ還實現了更友好的硬體實現,優化的2位元CPU核心在速度和內存效率上超過了4位元量化。實驗還顯示,三元、2位元和3位元量化模型在準確性和大小的權衡上表現優於1位元和4位元量化,強調了4位元以下方法的重要性。
這項研究的發現為優化大型語言模型中的低位元量化提供了堅實的基礎。通過引入結構化框架,該研究有效地解決了準確性權衡和位元寬度優化的挑戰。結果表明,雖然極低位元量化是可行的,但目前2位元和3位元量化在性能和效率之間提供了最佳平衡。未來在低位元計算的硬體支持方面的進展將進一步增強這些技術的實用性,使得在資源受限的環境中更有效地部署大規模機器學習模型成為可能。
查看論文。所有研究的功勞都歸功於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的75k+ ML SubReddit。
🚨 推薦的開源AI平台:‘IntellAgent是一個開源的多代理框架,用於評估複雜的對話AI系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!