客戶需要更準確的數據,以便將生成式人工智慧應用推向實際使用。在一個越來越依賴數據做決策的世界中,信息的完整性和可靠性至關重要。為了解決這個問題,客戶通常會通過向量檢索系統和增強檢索生成(RAG)架構模式來提高生成式人工智慧的準確性,這種模式整合了密集的嵌入,以使人工智慧的輸出與相關的上下文相連結。當需要更高的精確度和上下文真實性時,解決方案會演變為圖形增強的RAG(GraphRAG),在這裡,圖形結構提供了增強的推理和關係建模能力。
Lettria,作為AWS合作夥伴,展示了將基於圖形的結構整合到RAG工作流程中,可以使答案的準確性提高多達35%,相比僅使用向量的檢索方法。這一提升是通過利用圖形建模複雜關係和數據點之間的依賴性來實現的,為生成式人工智慧的輸出提供了更細緻和上下文準確的基礎。
在這篇文章中,我們將探討為什麼GraphRAG比僅使用向量的RAG更全面且更具可解釋性,以及如何利用AWS服務和Lettria來使用這種方法。
圖形如何使RAG更準確
在這一部分,我們將討論圖形如何使RAG更準確。
用圖形捕捉複雜的人類查詢
人類的問題本質上是複雜的,通常需要將多個信息片段連接起來。傳統的數據表示方法難以在不失去上下文的情況下適應這種複雜性。然而,圖形的設計是為了模仿人類自然思考和提問的方式。它們以機器可讀的格式表示數據,保留了實體之間豐富的關係。
通過將數據建模為圖形,您可以捕捉到更多的上下文和意圖。這意味著您的RAG應用可以以與人類思維過程密切對應的方式訪問和解釋數據。結果是對複雜查詢的答案更準確且更相關。
避免數據表示中的上下文丟失
當您僅依賴向量相似性進行信息檢索時,您會錯過數據中存在的細微關係。將自然語言轉換為向量會減少信息的豐富性,可能導致答案不夠準確。此外,最終用戶的查詢並不總是與提供的文檔中的有用信息語義對應,這導致向量搜索排除了構建準確答案所需的關鍵數據點。
圖形保持了數據的自然結構,允許問題和答案之間進行更精確的映射。它們使RAG系統能夠理解和導航數據中的複雜連接,從而提高準確性。
Lettria展示了在混合方法中,使用GraphRAG的答案正確率從傳統RAG的50%提高到超過80%。測試涵蓋了來自金融(亞馬遜財務報告)、醫療(關於COVID-19疫苗的科學研究)、工業(航空建設材料的技術規範)和法律(歐盟環境法規指令)的數據集。
證明圖形更準確
為了證實圖形增強的RAG的準確性提升,Lettria進行了一系列基準測試,將他們的GraphRAG解決方案(使用向量和圖形存儲的混合RAG)與僅依賴向量的基準RAG進行比較。
Lettria的混合方法論
Lettria的混合問題回答方法結合了向量相似性和圖形搜索的優勢,以優化RAG應用在複雜文檔上的性能。通過整合這兩種檢索系統,Lettria在處理複雜查詢時,利用結構化的精確性和語義靈活性。
GraphRAG專注於使用細粒度的上下文數據,適合回答需要明確連接實體的問題。相比之下,向量RAG在檢索語義相關信息方面表現出色,提供更廣泛的上下文見解。這一雙重系統還通過後備機制進一步增強:當一個系統難以提供相關數據時,另一個系統會補償。例如,GraphRAG在可用時精確指出明確的關係,而向量RAG則在結構缺失時填補關係空白或增強上下文。
基準測試過程
為了展示這一混合方法的價值,Lettria在來自各行各業的數據集上進行了廣泛的基準測試。使用他們的解決方案,他們將GraphRAG的混合管道與一個領先的開源RAG套件Verba by Weaviate進行比較,該基準RAG僅依賴向量存儲。數據集包括亞馬遜財務報告、關於COVID-19疫苗的科學文本、航空技術規範和歐洲環境指令,提供了多樣化和具有代表性的測試基礎。
評估針對現實世界的複雜性,專注於六種不同的問題類型,包括基於事實的、多跳的、數字的、表格的、時間的和多約束查詢。問題範圍從簡單的事實查找(例如識別疫苗配方)到多層推理任務(例如比較不同時間框架的收入數字)。一個金融領域的多跳查詢示例是「比較最早的亞馬遜收入與最近的收入」。
Lettria的內部團隊手動評估答案,使用詳細的評估表,將結果分類為正確、部分正確(可接受或不可接受)或不正確。這一過程測量了混合GraphRAG方法在處理需要結合結構關係和語義廣度的多維查詢時的表現,特別是在這方面超越了基準。通過利用向量和基於圖形的檢索的優勢,Lettria的系統展示了其精確和靈活地應對各行各業的細微需求的能力。
基準測試結果
結果顯著且引人注目。GraphRAG的正確答案達到80%,而傳統RAG僅為50.83%。當包括可接受的答案時,GraphRAG的準確性上升至近90%,而向量方法則達到67.5%。
以下圖表顯示了向量RAG和GraphRAG的結果。
在工業領域,處理複雜的技術規範時,GraphRAG提供了90.63%的正確答案,幾乎是向量RAG的46.88%的兩倍。這些數字突顯了GraphRAG相對於僅使用向量的方法所提供的實質性優勢,特別是對於專注於結構化複雜數據的客戶。
GraphRAG的整體可靠性和對複雜查詢的優越處理能力使客戶能夠更有信心地做出更明智的決策。通過提供多達35%更準確的答案,它顯著提高了效率,減少了在未結構化數據中篩選所花費的時間。這些引人注目的結果表明,將圖形納入RAG工作流程不僅提高了準確性,還是解決現實世界問題複雜性的關鍵。
使用AWS和Lettria增強RAG應用
在這一部分,我們將討論如何使用AWS和Lettria來增強RAG應用。
AWS:生成式人工智慧的堅實基礎
AWS提供了一整套工具和服務來構建和部署生成式人工智慧應用。使用AWS,您可以訪問可擴展的基礎設施和先進的服務,例如亞馬遜海王星(Amazon Neptune),這是一個完全管理的圖形數據庫服務。海王星使您能夠有效地建模和導航數據中的複雜關係,是實施基於圖形的RAG系統的理想選擇。
從頭開始實施GraphRAG通常需要類似於以下圖示的過程。
這一過程可以分解為以下幾個步驟:
根據領域定義,大型語言模型(LLM)可以識別未結構化數據中的實體和關係,然後將其存儲在如海王星的圖形數據庫中。
在查詢時,根據領域定義將用戶意圖轉換為高效的圖形查詢,以檢索相關的實體和關係。
然後使用結果來增強提示,生成比標準向量基礎RAG更準確的回應。
實施這一過程需要團隊在圖形建模、圖形查詢、提示工程或LLM工作流程維護等主題上發展特定技能。AWS發布了一個開源的GraphRAG工具包,以便於希望構建和自定義其GraphRAG工作流程的客戶。預期在提取過程和圖形查詢上進行迭代,以獲得準確性提升。
管理的GraphRAG實施
有兩種管理的GraphRAG解決方案可供AWS使用:Lettria的解決方案,將很快在AWS Marketplace上提供,以及亞馬遜Bedrock集成的GraphRAG支持與海王星。Lettria提供了一種便捷的方式將GraphRAG整合到您的應用中。通過結合Lettria在自然語言處理(NLP)和圖形技術方面的專業知識與可擴展的AWS基礎設施,您可以開發提供更準確和可靠結果的RAG解決方案。
以下是Lettria在AWS上的主要優勢:
簡單集成 – Lettria的解決方案簡化了複雜數據集的攝取和處理
提高準確性 – 您可以在問題回答任務中實現多達35%的性能提升
可擴展性 – 您可以使用可擴展的AWS服務來處理不斷增長的數據量和用戶需求
靈活性 – 混合方法結合了向量和圖形表示的優勢
除了Lettria的解決方案,亞馬遜Bedrock於2024年12月4日推出了管理的GraphRAG支持,與海王星直接集成。與海王星的GraphRAG內置於亞馬遜Bedrock知識庫中,提供無需額外設置或額外費用的集成體驗,僅需支付基礎服務的費用。GraphRAG在亞馬遜Bedrock知識庫和亞馬遜海王星分析均可用的AWS區域中提供(請參見當前支持的區域列表)。要了解更多,請參見使用亞馬遜Bedrock知識庫檢索數據和生成AI回應。
結論
數據準確性對於採用生成式人工智慧應用的企業來說是一個關鍵問題。通過將圖形納入您的RAG工作流程,您可以顯著提高系統的準確性。圖形提供了更豐富、更細緻的數據表示,捕捉人類查詢的複雜性並保留上下文。
GraphRAG是希望充分發揮數據潛力的組織需要考慮的關鍵選擇。通過AWS和Lettria的結合力量,您可以構建先進的RAG應用,幫助滿足當今數據驅動企業的需求,並實現多達35%的準確性提升。
探索如何在您的生成式人工智慧應用中實施GraphRAG:
關於作者
Denise Gosnell是亞馬遜海王星(Amazon Neptune)的首席產品經理,專注於生成式人工智慧基礎設施和圖形數據應用,能夠在各行各業提供可擴展的尖端解決方案。
Vivien de Saint Pern是與法國的AI/ML初創公司合作的初創解決方案架構師,專注於生成式人工智慧工作負載。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!