RAG 的受歡迎程度
在過去兩年中,我與金融公司合作,親眼目睹了他們如何識別和優先考慮生成式人工智慧的應用案例,並在複雜性與潛在價值之間取得平衡。
檢索增強生成 (Retrieval-Augmented Generation, RAG) 通常被視為許多大型語言模型 (LLM) 驅動解決方案的基礎能力,因為它在實施簡便性和實際影響之間取得了良好的平衡。RAG 通過結合檢索器(能夠找到相關文件)和 LLM(能夠綜合回應),簡化了知識的獲取,使其在客戶支持、研究和內部知識管理等應用中變得不可或缺。
定義清晰的評估標準對於確保 LLM 解決方案符合性能標準至關重要,就像測試驅動開發 (Test-Driven Development, TDD) 確保傳統軟體的可靠性一樣。借鑒 TDD 原則,基於評估的方式設置可衡量的基準,以驗證和改進人工智慧工作流程。這對於 LLM 特別重要,因為開放式回應的複雜性需要持續且深思熟慮的評估,以提供可靠的結果。
對於 RAG 應用,典型的評估集包括與預期用例對應的代表性輸入-輸出對。例如,在聊天機器人應用中,這可能涉及反映用戶詢問的問答對。在其他情境中,例如檢索和總結相關文本,評估集可能包括來源文件以及預期的摘要或提取的要點。這些對通常是從一組文件中生成的,例如那些被最常查看或訪問的文件,以確保評估集中在最相關的內容上。
主要挑戰
為 RAG 系統創建評估數據集傳統上面臨兩大挑戰。
這個過程通常依賴主題專家 (SMEs) 手動審查文件並生成問答對,這使得這個過程耗時、結果不一致且成本高昂。
限制 LLM 處理文件中的視覺元素(如表格或圖表),因為它們只能處理文本。標準的光學字符識別 (OCR) 工具在這方面的表現不佳,經常無法從非文本內容中提取有意義的信息。
多模態能力
隨著基礎模型中多模態能力的引入,處理複雜文件的挑戰已經演變。商業和開源模型現在可以同時處理文本和視覺內容。這種視覺能力消除了對單獨文本提取工作流程的需求,提供了一種集成的方法來處理混合媒體的 PDF。
通過利用這些視覺功能,模型可以一次性處理整個頁面,識別佈局結構、圖表標籤和表格內容。這不僅減少了手動工作量,還提高了可擴展性和數據質量,使其成為依賴準確信息的 RAG 工作流程的強大推動者。
財富管理研究報告的數據集策劃
為了解決手動生成評估集的問題,我使用一份樣本文件進行測試——2023 年 Cerulli 報告。這類文件在財富管理中很常見,分析師風格的報告通常將文本與複雜的視覺元素結合在一起。對於一個由 RAG 驅動的搜索助手來說,這樣的知識庫可能包含許多此類文件。
我的目標是展示如何利用單一文件生成問答對,並結合文本和視覺元素。雖然我在這次測試中沒有為問答對定義具體的維度,但在實際應用中會涉及提供問題類型(比較、分析、多選)、主題(投資策略、帳戶類型)和其他許多方面的詳細信息。這次實驗的主要重點是確保 LLM 生成的問題包含視覺元素並產生可靠的答案。
我的工作流程如圖所示,利用了 Anthropic 的 Claude Sonnet 3.5 模型,這簡化了處理 PDF 的過程,通過將文件轉換為圖像後再傳遞給模型。這種內建功能消除了對額外第三方依賴的需求,簡化了工作流程並減少了代碼的複雜性。
我排除了報告的初步頁面,如目錄和詞彙表,專注於包含相關內容和圖表的頁面來生成問答對。以下是我用來生成初始問答集的提示。
你是一位分析財務報告並生成問答對的專家。對於提供的 PDF,即 2023 年 Cerulli 報告:
1. 分析第 {start_idx} 頁到第 {end_idx} 頁的內容,對於這 10 頁中的 **每一頁**: – 確定該頁的 **確切頁面標題**,如該頁上所示(例如,「展覽 4.03 核心市場數據庫,2023」)。 – 如果該頁包含圖表、圖形或示意圖,創建一個參考該視覺元素的問題。否則,創建一個關於文本內容的問題。 – 為該問題生成兩個不同的答案(「answer_1」和「answer_2」),兩者均需支持該頁的內容。 – 確定該頁的正確頁碼,如頁面左下角所示。2. 返回正好 10 個結果作為有效的 JSON 陣列(字典列表)。每個字典應包含鍵:「page」(整數)、「page_title」(字符串)、「question」(字符串)、「answer_1」(字符串)和「answer_2」(字符串)。頁面標題通常包含「展覽」一詞,後面跟著一個數字。
問答對生成
為了完善問答生成過程,我實施了一種比較學習方法,為每個問題生成兩個不同的答案。在評估階段,這些答案會根據準確性和清晰度等關鍵維度進行評估,並選擇較強的回應作為最終答案。
這種方法類似於人類在比較選擇時更容易做出決策,而不是單獨評估某個選項。就像眼科檢查一樣:驗光師不會問你的視力是否改善或惡化,而是提供兩個鏡片,問你哪一個更清晰,選項 1 還是選項 2?這種比較過程消除了評估絕對改善的模糊性,專注於相對差異,使選擇變得更簡單和可行。同樣,通過提供兩個具體的答案選項,系統可以更有效地評估哪一個回應更強。
這種方法也被引用為最佳實踐,出現在 AI 領域的文章《我們從與 LLM 一年合作中學到了什麼》中。他們強調了成對比較的價值,指出:「與其要求 LLM 在李克特量表上評分單一輸出,不如提供兩個選項並要求其選擇更好的那一個。這通常會導致更穩定的結果。」我強烈建議閱讀他們的三部分系列文章,因為它提供了有關構建有效 LLM 系統的寶貴見解!
LLM 評估
為了評估生成的問答對,我使用了 Claude Opus,因為它具有先進的推理能力。作為「評審」,LLM 對每個問題生成的兩個答案進行比較,並根據直接性和清晰度等標準選擇較好的選項。這種方法得到了廣泛研究的支持(Zheng et al., 2023),顯示 LLM 的評估能力可以與人類審核者相媲美。
這種方法顯著減少了主題專家所需的手動審查量,使得改進過程更加可擴展和高效。雖然主題專家在初始階段仍然至關重要,以檢查問題並驗證系統輸出,但隨著時間的推移,這種依賴性會減少。一旦系統性能達到足夠的信心水平,對頻繁檢查的需求就會降低,讓主題專家可以專注於更高價值的任務。
學到的教訓
Claude 的 PDF 功能限制為 100 頁,因此我將原始文件分為四個 50 頁的部分。當我嘗試在單個請求中處理每個 50 頁的部分——並明確指示模型為每頁生成一個問答對——它仍然漏掉了一些頁面。令牌限制並不是實際問題;模型往往專注於它認為最相關的內容,導致某些頁面未被充分代表。
為了解決這個問題,我嘗試以較小的批次處理文件,測試了 5、10 和 20 頁的組合。通過這些測試,我發現 10 頁的批次(例如,第 1–10 頁、第 11–20 頁等)在精確性和效率之間提供了最佳平衡。每批處理 10 頁確保了所有頁面的一致結果,同時優化了性能。
另一個挑戰是將問答對與其來源連接起來。僅使用 PDF 頁腳中的小頁碼並不總是有效。相反,頁面標題或每頁頂部的清晰標題作為可靠的錨點更為有效。它們更容易被模型識別,並幫助我準確地將每個問答對映射到正確的部分。
示例輸出
以下是報告中的一個示例頁面,包含兩個數據表。為這一頁生成的問題是:不同規模的混合 RIA 公司資產管理總額 (AUM) 的分佈如何變化?

答案:中型公司($25M 到 <$100M)的 AUM 份額從 2.3% 下降到 1.0%。
在第一個表中,2017 年的列顯示中型公司的 AUM 份額為 2.3%,而在 2022 年下降到 1.0%,這展示了 LLM 準確綜合視覺和表格內容的能力。
好處
結合緩存、批處理和精煉的問答工作流程帶來了三個主要優勢:
緩存
在我的實驗中,處理單一報告而不使用緩存的成本為 $9,但通過利用緩存,我將這一成本降低到 $3——節省了 3 倍的成本。根據 Anthropic 的定價模型,創建緩存的成本為 $3.75 / 百萬個令牌,然而,從緩存中讀取的成本僅為 $0.30 / 百萬個令牌。相比之下,當不使用緩存時,輸入令牌的成本為 $3 / 百萬個令牌。
在現實情況中,處理多於一份文件的節省會更加顯著。例如,處理 10,000 份相似長度的研究報告而不使用緩存的輸入成本將達到 $90,000。使用緩存後,這一成本降至 $30,000,實現相同的精確度和質量,同時節省 $60,000。
折扣批處理
使用 Anthropic 的批處理 API 將輸出成本減半,對於某些任務來說,這是一個更便宜的選擇。一旦我驗證了提示,我就運行了一個單一的批處理作業來一次性評估所有的問答答案集。這種方法證明比單獨處理每個問答對更具成本效益。
例如,Claude 3 Opus 通常每百萬個輸出令牌的成本為 $15。通過使用批處理,這一成本降至每百萬個令牌 $7.50——減少了 50%。在我的實驗中,每個問答對平均生成 100 個令牌,導致該文件約 20,000 個輸出令牌。按照標準費率,這將花費 $0.30。使用批處理後,成本降低至 $0.15,突顯了這種方法如何優化非順序任務(如評估運行)的成本。
為主題專家節省時間
通過更準確、內容豐富的問答對,主題專家花在篩選 PDF 和澄清細節上的時間減少了,更多的時間專注於戰略見解。這種方法還消除了聘請額外員工或分配內部資源來手動策劃數據集的需求,這是一個耗時且昂貴的過程。通過自動化這些任務,公司在勞動成本上節省了大量資金,同時簡化了主題專家的工作流程,這使得這成為一個可擴展且具成本效益的解決方案。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!