今天,亞馬遜網路服務 (AWS) 宣布亞馬遜 Bedrock 知識庫的 GraphRAG (GraphRAG) 功能正式上線。這項功能增強了檢索增強生成 (RAG),並使用亞馬遜海王星分析中的圖形數據。這項功能透過自動創建嵌入來增強生成 AI 應用的回應,並生成從文檔中提取的實體和關係的圖形。這個圖形儲存在亞馬遜海王星分析中,提供了豐富的上下文,以便在檢索階段提供更全面、相關且可解釋的回應,滿足客戶需求。開發人員只需在亞馬遜 Bedrock 控制台上點擊幾下,就能啟用 GraphRAG,提升生成 AI 應用的準確性,而無需具備圖形建模的專業知識。
在這篇文章中,我們將討論 GraphRAG 的好處以及如何在亞馬遜 Bedrock 知識庫中開始使用它。
用圖形增強 RAG,讓生成 AI 應用更全面且可解釋
生成 AI 正在改變人類與科技的互動方式,讓我們能進行自然的對話,提供有幫助、細緻且具洞察力的回應。然而,目前生成 AI 系統面臨的一個主要挑戰是提供全面、相關且可解釋的回應,因為數據分散在多個文檔中。如果無法有效地映射輸入數據源之間的共享上下文,回應可能會不完整或不準確。
為了解決這個問題,AWS 在 re:Invent 2024 上宣布了 GraphRAG 的公開預覽,現在正式推出這項功能。這項新功能將圖形數據建模的力量與先進的自然語言處理 (NLP) 結合在一起。GraphRAG 自動創建圖形,捕捉相關實體和文檔之間的連結。更具體地說,所創建的圖形將文檔的片段與實體相連接。
在生成回應的過程中,GraphRAG 首先進行語義搜索,以找到最相關的 k 個片段,然後遍歷這些片段的周圍鄰域,以檢索最相關的內容。通過鏈接這些上下文信息,生成 AI 系統能夠提供更完整、準確且基於來源數據的回應。無論是回答跨主題的複雜問題,還是總結長篇報告的關鍵細節,GraphRAG 都能提供全面且可解釋的回應,讓 AI 對話更有幫助和可靠。
當相關信息分散在多個來源或文檔中時,GraphRAG 可以提升相關性和準確性,以下是三個使用案例。
簡化市場研究,加速商業決策
一家全球領先的金融機構希望增強其專有研究的洞察提取。該機構擁有大量的經濟和市場研究報告,想要探索 GraphRAG 如何改善複雜金融查詢的信息檢索和推理。為了評估這一點,他們添加了專有的研究論文,專注於關鍵市場趨勢和經濟預測。
為了評估 GraphRAG 的有效性,該機構與 AWS 合作,利用亞馬遜 Bedrock 知識庫和亞馬遜海王星分析建立了一個概念驗證。目標是確定 GraphRAG 是否能比傳統檢索方法更有效地提取洞察。GraphRAG 將知識結構化為相互連接的實體和關係,使得跨文檔的多跳推理成為可能。這項能力對於回答複雜問題,如「未來幾年資本支出增長的阻力和助力是什麼?」或「ILA 罷工對國際貿易的影響是什麼?」至關重要。GraphRAG 不僅依賴關鍵字匹配,還能追蹤經濟指標、政策變化和行業影響之間的關係,確保回應具有豐富的上下文和數據支持。
在比較 GraphRAG 和其他檢索方法的回應質量時,顯著的差異出現在其全面性、清晰度和相關性上。雖然其他檢索方法提供了簡單的回應,但往往缺乏更深層的洞察和更廣泛的上下文。相反,GraphRAG 通過整合相關因素和提供額外的相關信息,提供了更細緻的答案,使回應比其他檢索方法更全面。
改善汽車製造中的數據驅動決策
一家國際汽車公司管理著一個大型數據集,支持數千個用例,涵蓋工程、製造和客戶服務。隨著數千名用戶每天查詢不同的數據集,確保洞察準確且在來源之間相互連接一直是一個持續的挑戰。
為了解決這個問題,該公司與 AWS 合作,原型設計了一個圖形,映射關鍵數據點之間的關係,例如車輛性能、供應鏈物流和客戶反饋。這種結構允許在數據集之間獲得更精確的結果,而不是依賴不相連的查詢結果。
通過亞馬遜 Bedrock 知識庫的 GraphRAG 與亞馬遜海王星分析自動構建從文檔中提取的圖形,該公司能夠更有效地在其 RAG 應用中顯示相關洞察。這種方法幫助團隊識別製造質量中的模式,預測維護需求,並改善供應鏈的韌性,使數據分析在整個組織中更有效且可擴展。
增強網路安全事件分析
一家網路安全公司正在使用 GraphRAG 改善其 AI 驅動助手分析安全事件的方式。傳統的檢測方法依賴孤立的警報,經常錯過攻擊的更廣泛上下文。
通過使用圖形,該公司將不同的安全信號,如登錄異常、惡意軟體簽名和網路流量模式,連接成一個結構化的威脅活動表示。這使得根本原因分析更快,安全報告更全面。
亞馬遜 Bedrock 知識庫和海王星分析使這個系統能夠擴展,同時保持嚴格的安全控制,提供資源隔離。通過這種方法,公司的安全團隊能夠快速解讀威脅、優先處理回應,並減少誤報,從而提高事件處理的效率。
解決方案概述
在這篇文章中,我們提供了一個使用亞馬遜簡單儲存服務 (Amazon S3) 桶中的文件來構建亞馬遜 Bedrock 知識庫 GraphRAG 與亞馬遜海王星分析的步驟。運行這個範例會產生亞馬遜海王星分析、亞馬遜 S3 和亞馬遜 Bedrock 的費用。這個範例的亞馬遜海王星分析費用約為每小時 $0.48。亞馬遜 S3 的費用會根據您的數據集大小而有所不同,更多有關亞馬遜 S3 價格的詳細信息可以在這裡找到。亞馬遜 Bedrock 的費用會根據您選擇的嵌入模型和分塊策略而有所不同,更多有關 Bedrock 價格的詳細信息可以在這裡找到。
前提條件
要跟隨這篇文章,您需要一個 AWS 帳戶,並擁有訪問亞馬遜 Bedrock 的必要權限,以及一個包含數據的亞馬遜 S3 桶,作為您的知識庫。還需確保您已啟用對 Claude 3 Haiku (anthropic.claude-3-haiku-20240307-v1:0) 和任何其他您希望用作嵌入模型的模型的訪問。更多有關如何啟用模型訪問的詳細信息,請參考這裡的文檔。
構建亞馬遜 Bedrock 知識庫 GraphRAG 與亞馬遜海王星分析
要開始,請完成以下步驟:
在亞馬遜 Bedrock 控制台中,選擇導航窗格中的 Builder 工具下的知識庫。
在知識庫部分,選擇創建和帶有向量存儲的知識庫。
在知識庫詳細信息中,輸入名稱和可選描述。
在 IAM 權限中,選擇創建並使用新服務角色以創建新的 AWS 身份和訪問管理 (IAM) 角色。
在數據源詳細信息中,選擇亞馬遜 S3 作為數據源。
選擇下一步。
在 S3 URI 中,選擇瀏覽 S3 並選擇適當的 S3 桶。
在解析策略中,選擇亞馬遜 Bedrock 默認解析器。
在分塊策略中,選擇默認分塊(建議用於 GraphRAG)或您希望的任何其他策略。
選擇下一步。
在嵌入模型中,選擇一個嵌入模型,例如亞馬遜泰坦文本嵌入 v2。
在向量數據庫中,選擇快速創建新的向量存儲,然後選擇亞馬遜海王星分析 (GraphRAG)。
選擇下一步。
審查配置詳細信息並選擇創建知識庫。
同步數據源
創建知識庫後,單擊數據源部分下的同步。數據同步可能需要幾分鐘到幾小時,具體取決於您擁有的源文檔數量和每個文檔的大小。
測試知識庫
數據同步完成後:
選擇擴展圖標以擴展測試區域的完整視圖。
通過添加過濾器或護欄來配置您的知識庫。
我們鼓勵您啟用重新排序(有關重新排序模型的定價信息,請參見亞馬遜 Bedrock 價格)以充分利用 GraphRAG 的能力。重新排序允許 GraphRAG 精煉和優化搜索結果。
您還可以為知識庫中的每個文檔提供自定義元數據文件(每個文件最大 10 KB)。您可以對檢索進行過濾,指示向量存儲根據文檔元數據進行預過濾,然後搜索相關文檔。這樣,您可以控制檢索的文檔,特別是如果您的查詢不明確。請注意,不支持列表類型。
使用右側窗格中的聊天區域詢問有關您亞馬遜 S3 桶中文檔的問題。
回應將使用 GraphRAG 並在回應中提供對片段和文檔的引用。
現在您已啟用 GraphRAG,請通過查詢您的生成 AI 應用來測試它,觀察回應相比基準 RAG 方法的改善。您可以監控亞馬遜 CloudWatch 日誌以獲取有關索引、查詢延遲和準確性的性能指標。
清理
當您完成探索解決方案後,請確保清理您創建的任何資源。需要清理的資源包括亞馬遜 Bedrock 知識庫、亞馬遜 Bedrock 知識庫使用的相關 AWS IAM 角色,以及用於源文檔的亞馬遜 S3 桶。
您還需要單獨刪除亞馬遜海王星分析為您創建的圖形。
結論
在這篇文章中,我們討論了如何開始使用亞馬遜 Bedrock 知識庫 GraphRAG 與亞馬遜海王星。要進一步實驗,請查看亞馬遜 Bedrock 知識庫檢索 API,以在您的應用中利用 GraphRAG 的力量。請參考我們的文檔以獲取代碼範例和最佳實踐。
關於作者
Denise Gosnell 是亞馬遜海王星的首席產品經理,專注於生成 AI 基礎設施和圖形數據應用,能夠在各行各業提供可擴展的尖端解決方案。
Melissa Kwok 是 AWS 的高級海王星專家解決方案架構師,幫助各種規模和行業的客戶根據最佳實踐構建雲解決方案。當她不在辦公桌前時,您可以在廚房裡找到她,嘗試新的食譜或閱讀食譜書。
Ozan Eken 是 AWS 的產品經理,熱衷於構建尖端的生成 AI 和圖形分析產品。專注於簡化複雜的數據挑戰,Ozan 幫助客戶解鎖更深層的洞察並加速創新。在工作之外,他喜歡嘗試新食物、探索不同國家和觀看足球。
Harsh Singh 是 AWS AI 的首席產品經理技術。Harsh 喜歡構建能夠將 AI 帶給軟體開發者和日常用戶的產品,以提高他們的生產力。
Mani Khanuja 是生成 AI 專家技術負責人,著有《應用機器學習和 AWS 高性能計算》一書,並擔任女性製造教育基金會董事會成員。她在計算機視覺、自然語言處理和生成 AI 等各個領域領導機器學習項目。她在內部和外部會議上發言,如 AWS re:Invent、女性製造西部會議、YouTube 網路研討會和 GHC 23。在空閒時間,她喜歡沿著海灘長跑。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!