人工智慧模型在測試時面臨一個基本挑戰,就是如何有效地擴展它們的推理能力。雖然增加模型的大小通常會提高性能,但這也需要大量的計算資源和訓練數據,讓許多應用變得不切實際。傳統技術,如擴展模型參數或使用思維鏈(Chain-of-Thought, CoT)推理,依賴於明確表達中間步驟。然而,這些方法受到上下文長度限制和特定任務訓練需求的約束。研究人員正在探索其他方法,使人工智慧能夠更有效地推理,專注於內部計算,而不是產生額外的標記。
Huginn-3.5B:一種新的潛在推理方法
來自 ELLIS Institute Tübingen、馬克斯·普朗克智能系統研究所、Tübingen AI Center、馬里蘭大學(University of Maryland, College Park)和勞倫斯·利弗莫爾國家實驗室的研究人員推出了 Huginn-3.5B,這是一個旨在重新思考測試時計算的模型。Huginn-3.5B 採用了一種重複深度的方法,允許它在推理過程中不斷迭代其潛在空間。這種方法通過不斷改進其隱藏狀態,而不是生成更多的標記,從而實現更高效和可擴展的推理過程。該模型可以在處理複雜查詢時分配額外的計算資源,同時對於簡單任務保持效率。
主要特點和好處
Huginn-3.5B 的核心創新在於其深度重複變壓器架構,這種架構包含了一個循環處理單元。這一機制使模型能夠:
- 動態增強推理:Huginn-3.5B 根據任務的複雜性調整計算努力,根據需要在潛在空間中迭代。
- 減少對長上下文窗口的依賴:由於推理發生在潛在空間內,模型需要更少的記憶體和處理能力。
- 無需專門的訓練數據:與思維鏈方法不同,Huginn-3.5B 不需要明確的推理示範來有效地進行泛化。
- 每個標記的計算適應:該模型通過確定每個標記所需的計算量來優化效率。
- 促進高效解碼:Huginn-3.5B 在生成輸出標記之前,先改進其隱藏狀態,從而提高一致性並減少延遲。
性能洞察
Huginn-3.5B 在 8000 億個標記上進行訓練,這些標記涵蓋了通用文本、代碼和數學推理,並在各種基準測試中進行評估。研究結果包括:
- 計算量增加時準確性提高:通過在潛在空間中進一步迭代,Huginn-3.5B 達到了與更大模型相當的性能水平。
- 與同類模型的競爭力:Huginn-3.5B 在 ARC 和 GSM8K 等推理基準上超越了 Pythia-6.9B 和 Pythia-12B。
- 任務依賴的計算擴展:該模型在處理複雜任務(如 GSM8K)時分配了額外資源,同時有效處理簡單任務(如 OpenBookQA)。
結論:潛在推理在人工智慧中的角色
Huginn-3.5B 提供了一種關於人工智慧推理的替代觀點,通過將重點從明確的基於標記的處理轉向潛在空間內的計算。這使得在不需要更大模型的情況下,能夠進行更高效和可適應的測試時計算。隨著人工智慧的持續發展,重複深度推理可能提供一個有前景的方向,補充現有的擴展策略,同時提供計算效率。未來的研究可能進一步完善這一方法,將其與專家混合模型和微調技術結合,以提高靈活性和性能。
查看論文。所有研究的功勞都歸於這個項目的研究人員。此外,隨時在 Twitter 上關注我們,別忘了加入我們的 75k+ ML SubReddit。
🚨 推薦的開源人工智慧平台:‘IntellAgent 是一個開源多代理框架,用於評估複雜的對話人工智慧系統’(推廣)
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!