這篇AI論文介紹了R1-Searcher：一個基於強化學習的框架，用於提升LLM搜索能力

大型語言模型（LLMs）主要依賴其內部知識，但在處理即時或知識密集的問題時，這種知識可能不夠充分。這個限制常常導致不準確的回答或錯誤的資訊，因此增強LLMs的外部搜尋能力變得非常重要。研究人員正在利用強化學習，積極尋找改善這些模型檢索和整合相關資訊的能力的方法，以超越它們靜態的知識基礎。

目前LLMs對最新和特定領域知識的有限訪問是一個主要問題。由於這些模型是在可能不包括最近發展的龐大數據集上訓練的，因此在回答需要即時資訊的動態問題時會遇到困難。雖然已經引入了檢索增強生成（RAG）方法來減輕這個問題，但現有的解決方案往往依賴於結構化提示和監督微調（SFT）。這些方法經常導致過擬合，限制了模型在不同數據集上的泛化能力。因此，需要一種替代方案，讓LLMs能夠自主與外部搜尋系統互動，提升其適應性和準確性。

過去的方法嘗試通過迭代提示、監督微調和基於樹的搜尋技術（如蒙地卡羅樹搜尋（MCTS））將外部搜尋功能整合到LLMs中。雖然這些方法顯示出一些改善，但它們依賴於昂貴的計算資源和專有模型。例如，監督微調迫使模型記住推理路徑，這會對它們在新情境中的泛化能力產生負面影響。一些基於檢索的策略引入了多步查詢精煉技術，但通常需要人類干預或預定義的提示模板。這些限制使得開發一種更自主和高效的搜尋機制成為必要。

來自中國人民大學和DataCanvas Alaya NeW的研究團隊推出了R1-Searcher，這是一個新穎的強化學習框架，旨在有效提升LLMs檢索外部知識的能力。這個框架採用兩階段的強化學習方法，讓LLMs能夠調用外部搜尋系統，而不需要人類編寫的提示或事先的監督微調。通過專注於強化學習，R1-Searcher使模型能夠自主探索和學習最佳的檢索策略，從而提高推理任務的準確性和效率。

R1-Searcher框架分為兩個階段。第一階段鼓勵模型啟動外部搜尋行動，提供基於檢索的獎勵，而不考慮最終答案的正確性。這一階段確保模型學會正確地調用搜尋查詢。第二階段通過引入基於答案的獎勵系統來精煉這一能力，評估檢索到的信息是否有助於解決給定的問題。強化學習過程依賴於一個量身定制的損失函數，對不正確或不必要的搜尋進行懲罰，同時獎勵有效利用外部知識。與以往的基於檢索的技術不同，這種方法允許LLMs動態整合推理和檢索，提高其在各種任務中的適應性。

實驗評估顯示，R1-Searcher的表現超過了現有的檢索增強方法，包括基於GPT-4o-mini的模型。在HotpotQA數據集上，準確率提高了48.22%，而在2WikiMultiHopQA數據集上，則實現了21.72%的增長。此外，它在Bamboogle數據集上表現出強大的泛化能力，超過了其他模型，實現了11.4%的提升。與依賴封閉源模型和大量計算資源的以往技術不同，R1-Searcher在保持搜尋和推理任務效率的同時提供了更優越的性能。研究還表明，這種方法成功減輕了LLM生成回答中常見的錯誤和虛假信息問題。

研究結果顯示，增強LLMs的自主搜尋能力可以顯著提高它們的準確性和泛化能力。使用強化學習而不是監督微調，R1-Searcher使模型能夠動態學習最佳檢索策略，消除了對記憶回答的依賴。這一方法代表了人工智慧的一次重大進步，解決了現有模型的限制，同時確保它們能夠適應不斷變化的知識需求。研究結果突顯了強化學習在LLMs中革命性整合知識的潛力，使其在各種推理任務中變得更加可靠。

查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外，隨時關注我們的Twitter，別忘了加入我們的80k+ ML SubReddit。

🚨 介紹Parlant：一個以LLM為首的對話式人工智慧框架，旨在為開發者提供對其AI客服代理的控制和精確度，利用行為準則和運行時監督。🔧 🎛️ 它使用易於使用的CLI操作📟，並在Python和TypeScript中提供本地客戶端SDK📦。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 這篇AI論文介紹了R1Searcher一個基於強化學習的框架用於提升LLM搜索能力