大型語言模型(LLMs)在推理任務中展現了顯著的潛力,使用像是思考鏈(Chain-of-Thought, CoT)這樣的方法,將複雜的問題分解成可管理的步驟。然而,這種能力也帶來了一些挑戰。CoT 提示通常會增加標記的使用量,導致更高的計算成本和能源消耗。這種低效率對於需要精確性和資源效率的應用來說是一個問題。目前的 LLMs 通常會生成不必要的冗長輸出,這不一定能提高準確性,但卻增加了額外的成本。主要的挑戰在於找到推理性能和資源效率之間的平衡。
來自南京大學、羅格斯大學(Rutgers University)和馬薩諸塞大學阿默斯特分校(UMass Amherst)的研究人員推出了一個名為「考慮標記預算的 LLM 推理框架」(Token-Budget-Aware LLM Reasoning Framework)。這個框架根據推理任務的複雜性動態估算標記預算,並利用這些估算來指導過程。這個方法被稱為 TALE(Token-Budget-Aware LLM rEasoning),旨在在不妨礙回應準確性的情況下減少標記的使用。通過將標記預算整合到 CoT 提示中,TALE 提供了一個實用的解決方案,以提高 LLM 的成本效率,同時保持其性能。
技術細節和好處
TALE 主要分為兩個階段:預算估算和考慮標記預算的推理。最初,它使用零樣本預測或基於回歸的估算方法來估算問題的適當標記預算。然後,這個預算被嵌入到提示中,以鼓勵 LLM 生成簡潔但準確的回應。
TALE 的一個關鍵創新是「標記彈性」(Token Elasticity)的概念,它識別出一個最佳的標記預算範圍,以最小化標記的使用,同時保持準確性。通過使用二分搜尋等迭代搜尋技術,TALE 為各種任務和 LLM 架構確定最佳預算。平均而言,這個框架在標記使用上實現了 68.64% 的減少,準確性下降不到 5%,使其成為一種實用且可調整的標記效率方法。
結果和見解
實驗顯示 TALE 在 GSM8K 和 MathBench 等基準測試中的有效性。例如,在 GSM8K 數據集上,TALE 的準確率達到 84.46%,超過了傳統的 CoT 方法,同時將標記成本從 318.10 減少到平均 77.26。在 GSM8K-Zero 上,它將標記成本降低了 91%,保持了 98.72% 的準確性。
TALE 在不同的 LLM 上也有良好的泛化能力,例如 GPT-4o-mini 和 Yi-lightning。在應用於 MathBench-College 數據集時,TALE 將標記成本降低了高達 70%,同時保持了競爭力的準確性。此外,這個框架顯著降低了運營費用,與傳統的 CoT 相比,平均降低了 59% 的成本。這些結果突顯了 TALE 在不犧牲性能的情況下提高效率的能力,使其適用於各種應用。
結論
考慮標記預算的 LLM 推理框架解決了推理任務中標記使用的低效率問題。通過動態估算和應用標記預算,TALE 在準確性和成本效益之間取得了平衡。這種方法減少了計算開支,並擴大了高級 LLM 能力的可及性。隨著人工智慧的持續發展,像 TALE 這樣的框架為在學術和工業環境中更高效和可持續地使用 LLM 提供了途徑。
查看論文和 GitHub 頁面。所有的研究成果都歸功於這個項目的研究人員。此外,別忘了在 Twitter 上關注我們,加入我們的 Telegram 頻道和 LinkedIn 群組。還有,別忘了加入我們的 60k+ 人工智慧 SubReddit。
🚨 熱門消息:LG AI 研究發布 EXAONE 3.5:三個開源雙語前沿 AI 模型提供無與倫比的指令跟隨和長上下文理解,為生成 AI 卓越領導力提供支持……。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!