超越蒙地卡羅樹搜尋：釋放離散擴散中的隱性棋藝策略

大型語言模型（LLMs）逐步生成文本，這限制了它們在需要多步推理的任務中進行規劃的能力，例如結構化寫作或解決問題。這種缺乏長期規劃的情況影響了它們在複雜情境中的連貫性和決策能力。有些方法在做出選擇之前會評估不同的選項，這樣可以提高預測的準確性。然而，這些方法的計算成本較高，並且如果未來的預測不正確，則容易出錯。

像蒙特卡羅樹搜索（Monte Carlo Tree Search, MCTS）和束搜索（beam search）這樣的顯式搜索算法在人工智慧的規劃和決策中受到喜愛，但它們也有固有的限制。這些算法使用重複的未來模擬，隨著計算成本的上升，變得不適合即時系統。它們還依賴於一個價值模型來估計每個狀態，如果這個模型不正確，錯誤會在搜索過程中傳播。由於長期預測會產生更多錯誤，這些錯誤會累積並降低決策的準確性。在需要長期規劃的複雜任務中，這尤其成為一個問題，因為保持準確的預見變得困難，導致結果不佳。

為了解決這些問題，香港大學（The University of Hong Kong）、上海交通大學（Shanghai Jiaotong University）、華為諾亞方舟實驗室（Huawei Noah’s Ark Lab）和上海人工智慧實驗室（Shanghai AI Laboratory）的研究人員提出了DIFFUSEARCH。這是一個基於離散擴散的框架，消除了像MCTS這樣的顯式搜索算法。DIFFUSEARCH不依賴於昂貴的搜索過程，而是訓練政策來直接預測和利用未來的表示，並使用擴散模型迭代地改進預測。將世界模型和政策整合到一個框架中，減少了計算開銷，同時提高了長期規劃的效率和準確性。

這個框架使用監督學習來訓練模型，利用Stockfish作為神諭來標記棋局的狀態。研究人員檢查了不同的未來表示，選擇了行動狀態（s-asa）方法，因為它簡單且高效。模型不是直接預測未來的序列，而是利用離散擴散建模，應用自注意力和迭代去噪來逐步改進行動預測。DIFFUSEARCH在推理過程中通過直接從訓練好的模型中抽樣，避免了對未來狀態的昂貴邊際化。簡單優先的解碼策略優先考慮更可預測的標記進行去噪，從而提高準確性。

研究人員將DIFFUSEARCH與三個基於變壓器的基準模型進行了評估：狀態-行動（State-Action, S-A）、狀態-價值（State-Value, S-V）和行動-價值（Action-Value, SA-V）模型，這些模型分別使用行為克隆、基於價值的決策和合法行動比較進行訓練。使用10萬局棋賽的數據集，狀態以FEN格式編碼，行動以UCI標記，實現了基於GPT-2的模型，使用Adam優化器，學習率為3e-4，批次大小為1024，8層架構（700萬參數），預測範圍為4，擴散時間步設置為20。評估包括行動準確性、謎題準確性和來自6000局內部比賽的Elo評分。DIFFUSEARCH在行動準確性上超越了S-A 653 Elo和19%，並且儘管使用的數據記錄少了20倍，仍然超過了SA-V。離散擴散與線性λt達到了最高準確性（41.31%），超過了自回歸和高斯方法。DIFFUSEARCH在未來行動的預測能力上保持了優勢，儘管準確性隨著步驟的增加而下降，且隨著更多的注意層和精細解碼，性能有所提升。作為一種隱式搜索方法，它在與基於顯式MCTS的方法競爭中顯示出競爭力。

總結來說，這個提出的模型證明了通過離散擴散的隱式搜索可以有效地取代顯式搜索並改善棋類決策。該模型超越了無搜索和顯式策略，顯示出學習未來模仿策略的潛力。儘管使用了外部神諭和有限的數據集，該模型顯示了通過自我對弈和長期上下文建模改進的未來可能性。更一般地說，這種方法可以應用於改善語言模型中的下一個標記預測。作為進一步研究的起點，它為探索人工智慧的規劃和決策中的隱式搜索奠定了基礎。

查看論文和GitHub頁面。所有這項研究的功勞都歸於這個項目的研究人員。此外，隨時在Twitter上關注我們，別忘了加入我們的80k+機器學習SubReddit。

🚨 推薦閱讀 – LG AI Research發布NEXUS：一個先進的系統，整合代理AI系統和數據合規標準，以解決AI數據集中的法律問題。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 超越蒙地卡羅樹搜尋釋放離散擴散中的隱性棋藝策略