大型語言模型(LLMs)主要依賴其內部知識,但在處理即時或知識密集的問題時,這種知識可能不夠充分。這個限制常常導致不準確的回答或錯誤的資訊,因此增強LLMs的外部搜尋能力變得非常重要。研究人員正在利用強化學習,積極尋找改善這些模型檢索和整合相關資訊的能力的方法,以超越它們靜態的知識基礎。
目前LLMs對最新和特定領域知識的有限訪問是一個主要問題。由於這些模型是在可能不包括最近發展的龐大數據集上訓練的,因此在回答需要即時資訊的動態問題時會遇到困難。雖然已經引入了檢索增強生成(RAG)方法來減輕這個問題,但現有的解決方案往往依賴於結構化提示和監督微調(SFT)。這些方法經常導致過擬合,限制了模型在不同數據集上的泛化能力。因此,需要一種替代方案,讓LLMs能夠自主與外部搜尋系統互動,提升其適應性和準確性。
過去的方法嘗試通過迭代提示、監督微調和基於樹的搜尋技術(如蒙地卡羅樹搜尋(MCTS))將外部搜尋功能整合到LLMs中。雖然這些方法顯示出一些改善,但它們依賴於昂貴的計算資源和專有模型。例如,監督微調迫使模型記住推理路徑,這會對它們在新情境中的泛化能力產生負面影響。一些基於檢索的策略引入了多步查詢精煉技術,但通常需要人類干預或預定義的提示模板。這些限制使得開發一種更自主和高效的搜尋機制成為必要。
來自中國人民大學和DataCanvas Alaya NeW的研究團隊推出了R1-Searcher,這是一個新穎的強化學習框架,旨在有效提升LLMs檢索外部知識的能力。這個框架採用兩階段的強化學習方法,讓LLMs能夠調用外部搜尋系統,而不需要人類編寫的提示或事先的監督微調。通過專注於強化學習,R1-Searcher使模型能夠自主探索和學習最佳的檢索策略,從而提高推理任務的準確性和效率。
R1-Searcher框架分為兩個階段。第一階段鼓勵模型啟動外部搜尋行動,提供基於檢索的獎勵,而不考慮最終答案的正確性。這一階段確保模型學會正確地調用搜尋查詢。第二階段通過引入基於答案的獎勵系統來精煉這一能力,評估檢索到的信息是否有助於解決給定的問題。強化學習過程依賴於一個量身定制的損失函數,對不正確或不必要的搜尋進行懲罰,同時獎勵有效利用外部知識。與以往的基於檢索的技術不同,這種方法允許LLMs動態整合推理和檢索,提高其在各種任務中的適應性。
實驗評估顯示,R1-Searcher的表現超過了現有的檢索增強方法,包括基於GPT-4o-mini的模型。在HotpotQA數據集上,準確率提高了48.22%,而在2WikiMultiHopQA數據集上,則實現了21.72%的增長。此外,它在Bamboogle數據集上表現出強大的泛化能力,超過了其他模型,實現了11.4%的提升。與依賴封閉源模型和大量計算資源的以往技術不同,R1-Searcher在保持搜尋和推理任務效率的同時提供了更優越的性能。研究還表明,這種方法成功減輕了LLM生成回答中常見的錯誤和虛假信息問題。
研究結果顯示,增強LLMs的自主搜尋能力可以顯著提高它們的準確性和泛化能力。使用強化學習而不是監督微調,R1-Searcher使模型能夠動態學習最佳檢索策略,消除了對記憶回答的依賴。這一方法代表了人工智慧的一次重大進步,解決了現有模型的限制,同時確保它們能夠適應不斷變化的知識需求。研究結果突顯了強化學習在LLMs中革命性整合知識的潛力,使其在各種推理任務中變得更加可靠。
查看論文和GitHub頁面。所有的研究成果都歸功於這個項目的研究人員。此外,隨時關注我們的Twitter,別忘了加入我們的80k+ ML SubReddit。
🚨 介紹Parlant:一個以LLM為首的對話式人工智慧框架,旨在為開發者提供對其AI客服代理的控制和精確度,利用行為準則和運行時監督。🔧 🎛️ 它使用易於使用的CLI操作📟,並在Python和TypeScript中提供本地客戶端SDK📦。
新聞來源
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!