這篇AI論文介紹了一個參數高效的微調框架：LoRA、QLoRA和測試時縮放以優化LLM性能

大型語言模型（LLMs）在需要理解上下文和做出決策的領域中非常重要。然而，它們的開發和使用需要大量的計算資源，這限制了它們的擴展性和可及性。研究人員已經優化了LLMs，以提高效率，特別是在微調過程中，而不影響推理能力或準確性。這導致了探索參數高效的訓練方法，這些方法在減少資源消耗的同時保持性能。

在這個領域面臨的一個主要挑戰是訓練和微調LLMs的高昂成本。這些模型需要大量的數據集和強大的計算能力，使它們在許多應用中變得不切實際。此外，傳統的微調方法會導致過擬合，並需要大量的內存，這使得它們在新領域中不太適應。另一個問題是LLMs無法有效處理多步邏輯推理。雖然它們在簡單任務上表現良好，但在數學問題、複雜決策和多輪對話中往往會遇到困難。為了使LLMs更實用和可擴展，有必要開發減少計算負擔的方法，同時增強它們的推理能力。

之前改善LLM效率的方法主要依賴於指令微調、強化學習和模型蒸餾。指令微調使模型能更好地理解和回應用戶的提示，而強化學習則幫助完善決策過程。然而，這些方法需要昂貴的標記數據集。模型蒸餾則是將知識從較大的模型轉移到較小的模型，但這往往會導致推理能力的損失。研究人員還嘗試了量化技術和剪枝策略，以減少活動參數的數量，但這些方法在保持模型準確性方面的成功有限。

來自DeepSeek AI的研究團隊引入了一種新穎的參數高效微調（PEFT）框架，旨在優化LLMs以提高推理能力並降低計算成本。該框架整合了低秩適應（LoRA）、量化LoRA（QLoRA）、結構化剪枝和新型測試時間縮放方法，以提高推理效率。LoRA和QLoRA不再訓練整個模型，而是將可訓練的低秩矩陣注入特定層，減少活動參數的數量，同時保持性能。結構化剪枝進一步通過刪除冗餘的模型權重來消除不必要的計算。此外，研究人員還採用了測試時間縮放技術，包括束搜索、最佳N抽樣和蒙特卡羅樹搜索（MCTS），以增強多步推理，而無需重新訓練。這種方法確保LLMs根據任務的複雜性動態分配計算能力，使其變得更加高效。

所提出的方法通過整合思維樹（ToT）和自我一致性解碼來改進LLM的推理。ToT方法將邏輯步驟結構化為樹狀格式，讓模型在選擇最佳答案之前探索多條推理路徑。這樣可以防止模型過早地承諾於單一推理路徑，從而導致錯誤。自我一致性解碼進一步通過生成多個回應並選擇最常出現的正確答案來提高準確性。此外，該框架還採用了基於蒸餾的學習，使較小的模型能夠在不進行大量計算的情況下繼承較大模型的推理能力。通過結合這些技術，研究人員在不妥協性能的情況下實現了高效率。這種方法確保使用不到傳統方法一半的計算資源訓練的模型在複雜推理任務上表現相似或更高。

廣泛的評估顯示，測試時間縮放使模型在簡單到中等任務上能夠與14倍大的模型相媲美，同時將推理成本降低了4倍的FLOPs。LoRA和QLoRA通過將4位量化與低秩適應相結合，促進了內存高效的訓練，使得在消費者GPU上進行微調成為可能。BitsAndBytes提供8位優化器以優化內存使用，同時保持模型性能。思維樹推理增強了結構化的多步問題解決，提高了複雜任務中的決策準確性。同時，蒙特卡羅樹搜索在多步推理場景中精煉回應選擇，特別是在科學問答任務中。這些發現突顯了參數高效微調在提高LLM效率方面的潛力，而不犧牲推理能力。

這項研究提供了一個實用且可擴展的解決方案，以改善LLMs，同時減少計算需求。該框架確保模型在不過度使用資源的情況下達到高性能，通過結合參數高效微調、測試時間縮放和內存高效優化。研究結果表明，未來的發展應該在模型大小和推理效率之間取得平衡，使LLM技術更易於獲得。隨著公司和機構尋求成本效益的AI解決方案，這項研究為高效和可擴展的LLM部署奠定了基礎。

查看論文和GitHub頁面。所有對這項研究的貢獻都歸功於這個項目的研究人員。此外，隨時關注我們的Twitter，並別忘了加入我們的80k+ ML SubReddit。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 這篇AI論文介紹了一個參數高效的微調框架LoRAQLoRA和測試時縮放以優化LLM性能