近年來,大型語言模型 (LLMs) 的快速發展使得自然語言理解和推理能力有了驚人的提升。不過,這項進步有一個重要的警告:推理過程——一次生成一個字元的回應——仍然是一個計算瓶頸。隨著 LLMs 的規模和複雜度增加,逐字生成的延遲和能源需求變得相當龐大。在現實世界的應用中,成本、速度和可擴展性是非常關鍵的挑戰。傳統的解碼方法,如貪婪或束搜索方法,通常需要重複評估大型模型,導致高計算開銷。此外,即使使用平行解碼技術,保持生成輸出效率和質量的平衡也很困難。因此,這種情況促使研究人員尋找新技術,以降低推理成本而不影響準確性。因此,研究人員開始探索混合方法,將輕量級模型與更強大的模型結合,努力在速度和性能之間找到最佳平衡,這對於實時應用、互動系統和雲端環境的大規模部署至關重要。
Salesforce AI Research 推出了獎勵引導的推測解碼 (RSD),這是一個旨在提高大型語言模型 (LLMs) 推理效率的新框架。RSD 的核心是利用雙模型策略:一個快速、輕量的“草稿”模型與一個更強大的“目標”模型協同工作。草稿模型快速生成初步候選輸出,而過程獎勵模型 (PRM) 實時評估這些輸出的質量。與傳統的推測解碼不同,後者要求草稿和目標模型之間嚴格的無偏字元匹配,RSD 則引入了受控偏見。這種偏見經過精心設計,以偏向高獎勵輸出——即被認為更可能正確或與上下文相關的輸出——從而顯著減少不必要的計算。這種方法基於數學推導的閾值策略,決定何時應該由目標模型介入。通過根據獎勵函數動態混合兩個模型的輸出,RSD 不僅加速了推理過程,還提高了生成回應的整體質量。這項突破性的方法在附加的論文中詳細說明,代表了在解決 LLMs 中逐字生成固有低效性方面的一次重大進展。
RSD 的技術細節和好處
深入技術細節,RSD 通過將兩個模型以順序但協作的方式整合來運作。最初,草稿模型以低計算成本生成候選字元或推理步驟。每個候選字元隨後使用獎勵函數進行評估,該函數充當質量門檻。如果候選字元的獎勵超過預定的閾值,則接受該輸出;如果沒有,系統則調用計算負擔較重的目標模型來生成精煉的字元。這一過程由一個加權函數引導,通常是一個二元步進函數,調整對草稿模型和目標模型的依賴程度。過程獎勵模型 (PRM) 提供的動態質量控制確保只有最有前景的輸出能夠跳過目標模型,從而節省計算資源。這種方法的一個突出好處是“偏見加速”,其中受控的偏見不是缺點,而是一種戰略選擇,以優先考慮高獎勵結果。這帶來了兩個主要好處:首先,整體推理過程的速度可以比單獨運行目標模型快 4.4 倍;其次,與傳統的平行解碼基準相比,平均準確度提高了 3.5。總之,RSD 將效率與準確性相結合——在大幅減少浮點運算 (FLOPs) 的同時,仍能提供符合或超過目標模型性能的輸出。理論基礎和算法細節,如 PRSD 定義的混合分佈和自適應接受標準,為在各種推理任務中的實際部署提供了堅實的框架。
見解
RSD 的實證驗證非常有說服力。論文中詳細的實驗顯示,在 GSM8K、MATH500、OlympiadBench 和 GPQA 等挑戰性基準上,RSD 始終提供卓越的性能。例如,在 MATH500 基準上——這是一個旨在測試數學推理的數據集——當配置為 72B 的目標模型和 7B 的 PRM 時,RSD 的準確度達到 88.0,而單獨運行目標模型的準確度為 85.6。這種配置不僅將計算負擔減少了近 4.4 倍,還提高了推理準確性。結果強調了 RSD 超越傳統方法的潛力,如推測解碼 (SD) 甚至是基於搜索的先進技術,如束搜索或最佳 N 策略。
結論:高效 LLM 推理的新範式
總之,獎勵引導的推測解碼 (RSD) 標誌著在追求更高效的 LLM 推理方面的一個重要里程碑。通過智能地將輕量的草稿模型與強大的目標模型結合,並引入基於獎勵的接受標準,RSD 有效地解決了計算成本和輸出質量的雙重挑戰。偏見加速的創新方法使系統能夠選擇性地跳過高獎勵輸出的昂貴計算,從而簡化推理過程。由過程獎勵模型支撐的動態質量控制機制確保計算資源的合理分配,僅在必要時啟用目標模型。實證結果顯示推理速度提高了 4.4 倍,平均準確度比傳統方法提高了 3.5,RSD 不僅為更可擴展的 LLM 部署鋪平了道路,還為混合解碼框架的設計設立了新的標準。
查看論文和 GitHub 頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外,隨時關注我們的 Twitter,別忘了加入我們的 75k+ ML SubReddit。
🚨 推薦的開源 AI 平台:‘IntellAgent 是一個開源多代理框架,用於評估複雜的對話 AI 系統’ (推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!