許多組織正在建立和部署人工智慧 (AI) 應用程式,尤其是那些使用大型語言模型 (LLMs) 和檢索增強生成 (RAG) 系統的組織,面臨一個重大挑戰:如何在應用程式的整個生命週期中有效評估 AI 的輸出。隨著這些 AI 技術變得越來越複雜和廣泛應用,保持一致的質量和性能變得越來越困難。
傳統的 AI 評估方法有很多限制。人類評估雖然徹底,但在大規模上耗時且成本高昂。自動化指標雖然快速且具成本效益,但只能評估 AI 回應的正確性,無法捕捉其他評估維度或提供為什麼答案有問題的解釋。此外,傳統的自動化評估指標通常需要真實數據,而對於許多 AI 應用來說,這些數據很難獲得。特別是對於涉及開放式生成或檢索增強系統的應用,定義單一的「正確」答案幾乎是不可能的。最後,像 ROUGE 和 F1 這樣的指標可能會被淺顯的語言相似性(詞彙重疊)欺騙,即使實際意義非常不同。這些挑戰使得組織難以在其 AI 應用中保持一致的質量標準,特別是對於生成式 AI 的輸出。
亞馬遜基石 (Amazon Bedrock) 最近推出了兩項新功能,以解決這些評估挑戰:亞馬遜基石評估中的 LLM 作為評審 (LLM-as-a-judge, LLMaaJ) 和一個全新的 RAG 評估工具,用於亞馬遜基石知識庫。這兩個功能在底層依賴相同的 LLM 作為評審技術,根據評估的模型或使用亞馬遜基石知識庫構建的 RAG 應用有所不同。這些評估功能結合了自動化方法的速度與類似人類的細膩理解,使組織能夠:
評估 AI 模型在各種任務和上下文中的輸出
同時評估 AI 性能的多個評估維度
系統性地評估 RAG 系統中的檢索和生成質量
在保持質量標準的同時,擴展到數千個回應的評估
這些功能無縫整合到 AI 開發生命週期中,幫助組織改善模型和應用的質量,推廣負責任的 AI 實踐,並根據數據做出模型選擇和應用部署的決策。
這篇文章專注於使用亞馬遜基石知識庫的 RAG 評估,提供設置功能的指南,討論在評估提示和回應時需要考慮的細微差別,並最終討論最佳實踐。到文章結束時,你將了解最新的亞馬遜基石評估功能如何簡化你的 AI 質量保證方法,使 RAG 應用的開發更加高效和自信。
主要特點
在深入實施細節之前,我們先來看看使亞馬遜基石知識庫的 RAG 評估功能特別強大的主要特點:
亞馬遜基石評估
直接在服務中評估亞馬遜基石知識庫
系統性評估 RAG 系統中的檢索和生成質量,以改變知識庫的構建時間參數或運行時參數
全面、易於理解且可操作的評估指標
檢索指標:使用 LLM 作為評審來評估上下文的相關性和覆蓋範圍
生成質量指標:測量正確性、忠實性(檢測幻覺)、完整性等
為每個分數提供自然語言解釋,並在控制台上顯示
比較多個評估任務的檢索和生成結果
指標分數標準化到 0 和 1 的範圍
可擴展且高效的評估
在數千個回應中擴展評估
與手動評估相比,降低成本,同時保持高質量標準
靈活的評估框架
支持真實數據和無參考評估
讓用戶可以從多種指標中選擇進行評估
支持在亞馬遜基石上評估微調或精煉的模型
提供評審模型的選擇
模型選擇和比較
比較不同生成模型的評估任務
促進基於數據的模型性能優化
負責任的 AI 整合
包含內建的負責任 AI 指標,如有害性、拒絕回答和刻板印象
與亞馬遜基石護欄 (Amazon Bedrock Guardrails) 無縫整合
這些功能使組織能夠全面評估 AI 性能,推廣負責任的 AI 開發,並在 AI 應用生命週期中做出明智的模型選擇和優化決策。現在我們已經解釋了主要特點,接下來我們將探討這些功能在實際實施中的結合方式。
功能概述
亞馬遜基石知識庫 RAG 評估功能提供了一個全面的端到端解決方案,用於評估和優化 RAG 應用。這個自動化過程利用 LLM 的力量來評估檢索和生成質量,提供的見解可以顯著改善你的 AI 應用。
工作流程如下,從左到右的架構圖顯示:
提示數據集 – 準備好的提示集,選擇性地包括真實回應
JSONL 文件 – 將提示數據集轉換為 JSONL 格式以進行評估工作
亞馬遜簡單儲存服務 (Amazon S3) 桶 – 儲存準備好的 JSONL 文件
亞馬遜基石知識庫 RAG 評估工作 – 處理數據的核心組件,與亞馬遜基石護欄和亞馬遜基石知識庫整合
自動報告生成 – 生成包含詳細指標和見解的綜合報告,按單個提示或對話級別
分析報告以獲取 RAG 系統優化的可操作見解
設計全面的 RAG 評估:平衡成本、質量和速度
RAG 系統評估需要一種平衡的方法,考慮三個關鍵方面:成本、速度和質量。雖然亞馬遜基石評估主要專注於質量指標,但理解這三個組件有助於創建全面的評估策略。以下圖表顯示這些組件如何互動並融入全面的評估策略,接下來的部分將詳細探討每個組件。
成本和速度考量
RAG 系統的效率取決於模型選擇和使用模式。成本主要由數據檢索和在檢索和生成過程中消耗的令牌驅動,速度則取決於模型的大小和複雜性,以及提示和上下文的大小。對於需要高性能內容生成的應用,使用模型蒸餾可以是一個有效的解決方案。例如,這樣可以創建更小、更快的模型,同時在特定用例中保持較大模型的質量。
質量評估框架
亞馬遜基石知識庫評估通過多個質量維度提供全面的見解:
通過上下文相關性和忠實性等指標評估技術質量
通過正確性和完整性分數評估業務對齊
通過有用性和邏輯一致性測量用戶體驗
包含內建的負責任 AI 指標,如有害性、刻板印象和拒絕回答。
建立基準理解
開始評估過程時,選擇知識庫中的默認配置(向量或圖形數據庫),例如默認分塊策略、嵌入模型和提示模板。這些只是一些可能的選項。這種方法建立了一個基準性能,幫助你了解 RAG 系統在可用評估指標中的當前有效性,然後再進行優化。接下來,創建一個多樣化的評估數據集。確保這個數據集包含多樣的查詢和知識來源,準確反映你的用例。這個數據集的多樣性將提供 RAG 應用在生產中的全面表現。
迭代改進過程
了解不同組件如何影響這些指標,使你能夠做出明智的決策:
知識庫配置(分塊策略或嵌入大小或模型)和推理參數的微調
檢索策略的修改(語義或混合搜索)
提示工程的改進
模型選擇和推理參數配置
在不同的向量存儲中選擇,包括圖形數據庫
持續評估和改進
實施系統化的持續評估方法:
定期安排離線評估週期,與知識庫更新保持一致
隨著時間跟蹤指標趨勢,以識別改進的領域
使用見解來指導知識庫的改進和生成模型的定制與選擇
前提條件
要使用知識庫評估功能,請確保滿足以下要求:
擁有一個有效的 AWS 帳戶。
在亞馬遜基石中啟用的評審和生成模型。你可以在亞馬遜基石控制台的模型訪問頁面確認這些模型是否已啟用。
確認模型可用的 AWS 區域和配額。
完成與 AWS 身份和訪問管理 (IAM) 創建相關的知識庫評估前提條件,並為 S3 桶添加訪問和寫入輸出數據的權限。
已創建亞馬遜基石知識庫並同步數據,以便準備好供知識庫評估工作使用。
如果你使用自定義模型而不是按需模型作為生成模型,請確保在推理過程中有足夠的配額來運行預配置的吞吐量。前往服務配額控制台,檢查以下配額:
自定義模型的模型單位無承諾預配置吞吐量
每個預配置模型的模型單位 [你的自定義模型名稱]
這兩個字段都需要有足夠的配額來支持你的預配置吞吐量模型單位。如果需要,請請求增加配額,以適應你預期的推理工作負載。
準備輸入數據集
要準備你的數據集以進行知識庫評估工作,你需要遵循兩個重要步驟:
數據集要求:
每個評估工作最多 1,000 次對話(1 次對話包含在數據集格式中的 conversationTurns 鍵中)
每次對話最多 5 次回合(提示)
文件必須使用 JSONL 格式(.jsonl 擴展名)
每一行必須是有效的 JSON 對象和完整的提示
儲存在啟用 CORS 的 S3 桶中
遵循以下格式:
僅檢索評估工作。
特別注意: 在 2025 年 3 月 20 日, referenceContexts 鍵將更改為 referenceResponses。 referenceResponses 的內容應該是端到端 RAG 系統在給定提示時生成的預期真實答案,而不是從知識庫檢索的預期段落/塊。
檢索和生成評估工作
使用控制台開始知識庫 RAG 評估工作
亞馬遜基石評估提供了一個選項,可以通過控制台上的引導用戶界面運行評估工作。要通過控制台開始評估工作,請遵循以下步驟:
在亞馬遜基石控制台的導航窗格中,選擇推理和評估下的評估,然後選擇知識庫。
選擇創建,如下圖所示。
輸入評估名稱、描述,並選擇評審模型,如下圖所示。這個模型將用作評估 RAG 應用回應的評審者。
選擇知識庫和評估類型,如下圖所示。如果你只想評估檢索組件,則選擇僅檢索;如果你想評估端到端的檢索和回應生成,則選擇檢索和回應生成。選擇一個模型,該模型將用於在此評估工作中生成回應。
(可選)要更改推理參數,請選擇配置。你可以更新或實驗不同的溫度、top-P 值,更新知識庫提示模板,關聯護欄,更新搜索策略,並配置檢索的塊數。以下截圖顯示了配置屏幕。
選擇你想用來評估 RAG 應用的指標,如下圖所示。
提供 S3 URI,如步驟 3 所示,用於評估數據和評估結果。你可以使用瀏覽 S3
選擇具有適當權限的服務 (IAM) 角色。這包括對亞馬遜基石、評估工作中的 S3 桶、工作中的知識庫和使用的模型的服務訪問。你也可以在評估設置中創建一個新的 IAM 角色,服務將自動為該角色提供適當的權限。
選擇創建。
你將能夠在知識庫評估屏幕上檢查評估工作進行中的狀態,如下圖所示。
等待工作完成。這可能需要 10-15 分鐘對於小型工作,或者對於大型工作(有數百個長提示和所有指標選擇)可能需要幾個小時。當評估工作完成後,狀態將顯示為已完成,如下圖所示。
當它完成後,選擇該工作,你將能夠查看工作的詳細信息。以下截圖是指標摘要。
你還應該在亞馬遜 S3 路徑中觀察到一個帶有評估工作名稱的目錄。你可以在評估摘要部分的工作結果頁面中找到輸出 S3 路徑。
你可以比較兩個評估工作,以獲得有關不同配置或選擇的性能見解。你可以查看雷達圖,將兩個 RAG 評估工作的性能指標進行比較,簡化不同維度的相對優勢和劣勢的可視化,如下圖所示。
在評估詳細信息標籤中,通過每個評估指標的直方圖檢查分數分佈,顯示平均分數和百分比差異。將滑鼠懸停在直方圖條上以檢查每個分數範圍中的對話數量,幫助識別性能模式,如下圖所示。
使用 Python SDK 和 API 開始知識庫評估工作
要使用 Python SDK 創建知識庫評估工作,請遵循以下步驟。首先,設置所需的配置:
對於僅檢索的評估,創建一個專注於評估檢索上下文質量的工作:
要對檢索和生成進行完整評估,請使用以下配置:
要監控你的評估工作的進度,使用以下配置:
解釋結果
當你的評估工作完成後,亞馬遜基石 RAG 評估提供了一個詳細的比較儀表板,涵蓋評估維度。
評估儀表板包括全面的指標,但我們專注於一個例子,即完整性直方圖。這個可視化表示回應如何涵蓋所問問題的所有方面。在我們的例子中,我們注意到一個強烈的右偏分佈,平均分數為 0.921。大多數回應(15 次)得分超過 0.9,而少數則在 0.5-0.8 範圍內。這種類型的分佈有助於快速識別你的 RAG 系統是否具有一致的性能,或者是否有特定情況需要注意。
在直方圖中選擇特定的分數範圍會顯示詳細的對話分析。對於每個對話,你可以檢查輸入提示、生成的回應、檢索的塊數、真實數據的比較,以及最重要的,來自評審模型的詳細分數解釋。
考慮這個例子回應,對於問題「亞馬遜擴張有哪些風險?」得分為 0.75。雖然生成的回應提供了對操作、競爭和財務風險的結構化分析,但評審模型識別出與真實數據相比,缺少有關知識產權侵權和外匯風險的元素。這個詳細的解釋有助於理解不僅是缺少什麼,還有為什麼該回應得到了特定的分數。
這種細緻的分析對於系統性改善你的 RAG 管道至關重要。通過了解低性能回應中的模式以及檢索或生成需要改進的具體領域,你可以對系統進行針對性的優化——無論是調整檢索參數、改進提示,還是修改知識庫配置。
實施最佳實踐
這些最佳實踐有助於為你的 RAG 評估策略建立堅實的基礎:
仔細設計你的評估策略,使用能反映你的生產場景和用戶模式的代表性測試數據集。如果你的工作負載超過每批 1,000 個提示,通過採用分層抽樣等技術來促進多樣性和代表性,優化你的工作負載,並考慮完成時間和與評估相關的成本。
定期安排批量評估,與你的知識庫更新和內容刷新保持一致,因為此功能支持批量分析,而不是實時監控。
通過選擇直接影響應用成功標準的評估維度,平衡指標與業務目標。
使用評估見解系統性地改善你的知識庫內容和檢索設置,通過迭代改進。
保持評估工作的清晰文檔,包括所選的指標和根據結果實施的改進。結果頁面的工作創建配置設置可以幫助保持這裡的歷史記錄。
根據應用需求和資源限制優化評估批量大小和頻率,以促進成本效益的質量保證。
結構化你的評估框架,以容納不斷增長的知識庫,在評估標準中融入技術指標和業務 KPI。
為了幫助你更深入了解這些實踐的科學驗證,我們將發布一篇技術深入文章,探討使用公共數據集和內部 AWS 驗證研究的詳細案例研究。這篇即將發布的文章將檢查我們的評估框架在不同場景中的表現,並展示其與人類判斷在各種評估維度上的相關性。敬請期待,我們將探索推動亞馬遜基石評估的研究和驗證。
結論
亞馬遜基石知識庫 RAG 評估使組織能夠自信地部署和維護高質量的 RAG 應用,通過提供全面的自動化評估檢索和生成組件。通過結合管理評估的好處和人類評估的細膩理解,這一功能使組織能夠高效地擴展其 AI 質量保證,同時保持高標準。組織可以根據數據做出有關其 RAG 實施的決策,優化其知識庫,並通過與亞馬遜基石護欄的無縫整合遵循負責任的 AI 實踐。
無論你是在構建客戶服務解決方案、技術文檔系統,還是企業知識庫 RAG,亞馬遜基石評估都提供了交付可靠、準確和可信的 AI 應用所需的工具。為了幫助你入門,我們準備了一個 Jupyter 筆記本,裡面有實用的示例和代碼片段。你可以在我們的 GitHub 倉庫中找到它。
我們鼓勵你在亞馬遜基石控制台中探索這些功能,發現系統化評估如何增強你的 RAG 應用。
關於作者
Ishan Singh 是亞馬遜網路服務 (Amazon Web Services) 的生成 AI 數據科學家,他幫助客戶建立創新和負責任的生成 AI 解決方案和產品。Ishan 擁有 AI/ML 的堅實背景,專注於構建能帶來商業價值的生成 AI 解決方案。在工作之外,他喜歡打排球、探索當地的自行車小徑,並與妻子和狗 Beau 一起度過時光。
Ayan Ray 是 AWS 的高級生成 AI 夥伴解決方案架構師,他與 ISV 夥伴合作,開發結合 AWS 服務和 AWS 夥伴產品的集成生成 AI 解決方案。Ayan 在人工智慧和機器學習領域擁有超過十年的經驗,曾在加入 AWS 之前擔任 AI 初創公司的技術領導角色。他居住在舊金山灣區,閒暇時喜歡打網球和園藝。
Adewale Akinfaderin 是亞馬遜基石 (Amazon Bedrock) 的高級數據科學家——生成 AI,致力於在 AWS 推動基礎模型和生成 AI 應用的前沿創新。他的專長在於可重複和端到端的 AI/ML 方法、實際實施,並幫助全球客戶制定和開發可擴展的解決方案來解決跨學科問題。他擁有兩個物理學碩士學位和一個工程博士學位。
Evangelia Spiliopoulou 是 AWS 基石評估團隊的應用科學家,目標是開發新方法和工具來協助 LLM 的自動評估。她的整體工作專注於自然語言處理 (NLP) 研究和為 AWS 客戶開發 NLP 應用,包括 LLM 評估、RAG 和改善 LLM 的推理。加入亞馬遜之前,Evangelia 在卡內基梅隆大學的語言技術研究所完成了她的博士學位。
Jesse Manders 是亞馬遜基石 (Amazon Bedrock) 的高級產品經理,負責 AWS 生成 AI 開發者服務。他在 AI 和人類互動的交集工作,目標是創造和改善生成 AI 產品和服務以滿足我們的需求。在此之前,Jesse 在蘋果公司 (Apple Inc.) 和 Lumileds 擔任工程團隊領導角色,並在一家矽谷初創公司擔任高級科學家。他擁有佛羅里達大學的碩士和博士學位,以及加州大學伯克利分校哈斯商學院的 MBA 學位。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!