大型語言模型(LLMs)在客戶支持、自動內容創建和數據檢索中變得非常重要。然而,它們的效果常常受到多次互動中無法始終如一地遵循詳細指示的影響。這個問題在高風險環境中尤其關鍵,例如金融服務和客戶支持系統,在這些地方,嚴格遵循指導方針是必須的。LLMs經常在記住指示方面遇到困難,導致行為偏離預期。此外,它們還會生成誤導性或不正確的信息,通常稱為幻覺,這使得在需要精確、上下文敏感的決策的場景中使用它們變得困難。
在複雜情境中保持推理的一致性仍然是LLMs面臨的挑戰。雖然它們對簡單問題生成連貫的回答,但在多輪對話中,受過去互動影響的表現會下降。一個主要問題是對齊漂移,模型逐漸偏離原始指示,導致對指導方針的誤解和不正確的建議。上下文遺忘也是一個問題,模型優先考慮最近的信息,而忽略早期的細節,常常無視關鍵的限制。這些因素導致的錯誤削弱了LLM驅動系統的可靠性。儘管有像思維鏈(Chain-of-Thought, CoT)和基於驗證的提示等策略,但現有的方法並未提供足夠的結構來可靠地指導模型完成複雜任務。
為了改善遵循指示的能力,已經開發了各種提示技術。思維鏈提示鼓勵逐步推理,以提高邏輯準確性,而驗證鏈則要求對輸出進行明確的自我檢查。雖然這些方法在直接生成回答方面有所改善,但它們缺乏加強特定領域限制和系統性防止常見失敗的機制。像LangChain這樣的AI框架增加了工具整合和工作流程自動化的結構元素,但將LLM推理視為黑箱,限制了它們強制執行嚴格指導方針的能力。缺乏防止幻覺和指示漂移的機制突顯了需要更結構化的方法。
Emcie有限公司的研究人員開發了注意推理查詢(Attentive Reasoning Queries, ARQs)來解決這些不足。這種新方法引入了一個結構化的推理藍圖,旨在系統性地指導LLMs通過預定的查詢。與自由形式的推理方法不同,ARQs實施了一個結構化的JSON架構,指導模型在關鍵時刻關注特定的決策點。這種設計使ARQs能夠增強遵循指導方針的能力,同時最小化因誤解或上下文細節遺失而造成的失敗。為了評估其有效性,該方法在Parlant框架內進行了測試,該框架用於構建面向客戶的AI應用程序。初步結果顯示,ARQs顯著提高了遵循指示的能力,同時減少了與幻覺相關的錯誤。
ARQ框架由多個階段組成,這些階段共同增強推理性能。第一步是發出針對性的、結構化的查詢,提醒模型在生成回答之前注意關鍵限制。這些查詢加強了關鍵指示,確保模型不偏離預定的指導方針。接下來,模型處理一系列逐步查詢,以加強任務特定的推理。在某些實施中,還會有一個額外的驗證步驟,模型會根據預定的正確性標準檢查其回答,然後再最終確定輸出。這種結構化的方法與思維鏈提示形成鮮明對比,因為它在推理過程的每個階段都納入了明確的機制以確保一致性。
在Parlant框架內的性能評估中,在包含87個不同對話場景的控制測試環境中,ARQs達到了90.2%的成功率,超過了思維鏈推理(86.1%)和直接回答生成(81.5%)。ARQ方法在解決兩個關鍵失敗模式方面表現出色:指導方針的重新應用和幻覺的預防。具體來說,在模型需要重新應用早期指示的情況下,ARQs確保了92.19%的成功率,顯著高於思維鏈(87.81%)和直接回答生成(85.31%)。此外,ARQs減少了事實不準確的發生率,接受ARQs訓練的模型的幻覺率比依賴標準思維鏈技術的模型低23%。這些結果強調了結構化推理方法在提高LLM可靠性方面的重要性。
從研究中得出的幾個關鍵要點包括:
- ARQs改善了指示遵循,達到90.2%的成功率,超過了思維鏈(86.1%)和直接回答生成(81.5%)。
- ARQs顯著減少了幻覺錯誤,降低了23%,使其特別適用於需要事實一致性的商業關鍵AI應用。
- 在指導方針重新應用的情境中,ARQs的表現比思維鏈高出4.38%,成功率達到92.19%,而思維鏈為87.81%。
- ARQs的結構化特性使其在分類任務中的推理更有效,與思維鏈相比,令令牌使用減少了29%。
- ARQs中的驗證機制是防止對齊漂移的關鍵。它確保模型即使在長時間對話中也能專注於預定的限制。
- 未來的研究旨在進一步優化ARQ的效率,通過改進查詢設計和探索其在多樣化AI驅動決策系統中的應用。
查看論文和GitHub頁面。所有研究的功勞都歸於這個項目的研究人員。此外,隨時關注我們的Twitter,並別忘了加入我們的80k+機器學習SubReddit。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!