利用生成式人工智慧加速保險政策審查：Verisk 的莫札特夥伴

這篇文章是由 Sundeep Sardana、Malolan Raman、Joseph Lam、Maitri Shah 和 Vaibhav Singh 共同撰寫，來自 Verisk。

Verisk (納斯達克: VRSK) 是全球保險業的領先數據分析和技術合作夥伴，幫助客戶提升運營效率、改善承保和索賠結果、打擊詐騙，並就全球風險做出明智的決策。透過先進的數據分析、軟體、科學研究和深厚的行業知識，Verisk 幫助個人、社區和企業建立全球韌性。Verisk 在保險行業中率先使用生成式人工智慧，其生成式人工智慧解決方案如 Mozart，始終根植於倫理和負責任的人工智慧使用。Mozart 是創建和更新保險表單的主要平台，讓客戶能夠輕鬆組織、撰寫和提交表單，而其伴隨的生成式人工智慧工具則能在幾分鐘內比較保單文件並提供變更摘要，將變更採納時間從幾天或幾週縮短至幾分鐘。

這個生成式人工智慧驅動的 Mozart 伴隨工具使用先進的人工智慧來比較法律保單文件，並以易於理解的結構化格式提供重要的區別。新的 Mozart 伴隨工具是使用 Amazon Bedrock 建造的。Amazon Bedrock 是一項完全管理的服務，通過單一 API 提供來自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等領先人工智慧公司的高效基礎模型選擇，以及一系列廣泛的功能來構建安全、隱私和負責任的生成式人工智慧應用。Mozart 應用程式快速比較保單文件，並以追蹤變更格式呈現詳細的變更資訊，例如描述、位置和摘錄。

以下截圖顯示了 Mozart 伴隨工具的輸出範例，顯示了兩份法律文件之間變更的摘要、原始文件版本的摘錄、新文件版本的更新摘錄，以及以紅線表示的追蹤變更。

在這篇文章中，我們描述了 Mozart 的生成式人工智慧伴隨工具的開發過程、數據、架構和管道的評估。

數據：保單表單

Mozart 設計用來撰寫保單表單，如保障範圍和附加條款。這些文件提供有關保單保障和排除的資訊（如下圖所示），並幫助確定與保險保單相關的風險和保費。

解決方案概述

保單文件存放在 Amazon 簡單儲存服務 (Amazon S3) 中。一個 AWS Batch 工作會讀取這些文件，將其切割成較小的片段，然後使用 Amazon Titan 文本嵌入模型透過 Amazon Bedrock 創建文本片段的嵌入，並將其存儲在 Amazon OpenSearch Service 向量數據庫中。每個文件片段的元數據也會使用內部元數據 API 進行存儲，該 API 提供文件特徵，如文件類型、管轄權、版本號和生效日期。這個過程已實施為定期工作，以保持向量數據庫與新文件的更新。在解決方案設計過程中，Verisk 也考慮使用 Amazon Bedrock 知識庫，因為它專門用於在 Amazon OpenSearch Serverless 中創建和存儲嵌入。未來，Verisk 計劃使用 Amazon Titan 嵌入 V2 模型。

用戶可以選擇要比較的兩份文件。這個動作會觸發 AWS Lambda 函數，從 OpenSearch Service 數據庫檢索文件嵌入，並將其呈現給 Anthropic 的 Claude 3 Sonnet 基礎模型，該模型通過 Amazon Bedrock 訪問。結果以 JSON 結構存儲，並通過 API 服務提供給用戶界面，供最終用戶使用。

以下圖示展示了解決方案架構。

安全性與治理

生成式人工智慧是一項非常新的技術，帶來了與安全性和合規性相關的新挑戰。Verisk 擁有一個治理委員會，審查生成式人工智慧解決方案，以確保它們符合 Verisk 的安全性、合規性和數據使用標準。Verisk 還對其合同進行法律審查，以保護知識產權和合規性。確保由基礎模型共享的數據安全傳輸，並且基礎模型不保留任何數據或將其用於自身訓練是非常重要的。解決方案的質量、速度、成本和易用性是 Verisk 選擇 Amazon Bedrock 和 Anthropic 的 Claude Sonnet 作為其生成式人工智慧解決方案的關鍵因素。

評估標準

為了評估生成式人工智慧產生的結果質量，Verisk 根據以下標準進行評估：

準確性
一致性
上下文遵循
速度和成本

為了評估生成式人工智慧結果的準確性和一致性，Verisk 與內部保險領域專家合作設計了人類評估指標。Verisk 進行了多輪生成結果的人類評估。在這些測試中，內部領域專家會根據 1 到 10 的手動評分標準對準確性、一致性和上下文遵循進行評分。Verisk 團隊通過追蹤延遲來測量生成結果所需的時間。每輪測試的反饋都會納入後續測試中。

Verisk 從模型獲得的初步結果不錯，但與期望的準確性和一致性水平仍有差距。開發過程經歷了反覆改進，包括重新設計、對基礎模型進行多次調用以及測試各種基礎模型。評估基礎模型和非基礎模型解決方案成功的主要指標是一個手動評分系統，商業專家會對結果進行評分並進行比較。基礎模型解決方案正在快速改進，但為了達到期望的準確性，Verisk 的生成式人工智慧軟體解決方案需要包含比僅僅基礎模型更多的組件。為了實現所需的準確性、一致性和效率，Verisk 採用了多種技術，超越了僅使用基礎模型，包括提示工程、檢索增強生成和系統設計優化。

提示優化

變更摘要與顯示兩份文件之間的文本差異是不同的。Mozart 應用程式需要能夠描述實質變更，並忽略無意義變更的噪音。Verisk 使用內部領域專家的知識創建提示，以達成這些目標。在每輪測試中，Verisk 為提示添加詳細指示，以捕捉相關資訊並減少可能的噪音和錯誤。添加的指示將專注於減少商業專家在審查最終結果時發現的任何問題。為了獲得最佳結果，Verisk 需要根據使用的基礎模型調整提示——每個基礎模型對提示的反應有所不同，使用特定於給定基礎模型的提示能提供更好的結果。透過這個過程，Verisk 指導模型了解其所扮演的角色，以及常見術語和排除的定義。除了為基礎模型優化提示外，Verisk 還探索了有效拆分和處理文件文本的技術。

拆分文件頁面

Verisk 測試了多種文件拆分策略。在這個用例中，使用字符遞歸文本拆分器，片段大小為 500 個字符，重疊 15% 的方法提供了最佳結果。這個拆分器是 LangChain 框架的一部分；它是一個語義拆分器，考慮到文本中的語義相似性。Verisk 也考慮了 NLTK 拆分器。通過有效的拆分文件文本為可處理的片段，Verisk 然後專注於提高摘要輸出的質量和相關性。

摘要質量

質量評估從確認選擇了正確的文件進行比較開始。Verisk 通過使用文件元數據來縮小搜索結果的範圍，指定要包括或排除的文件，從而提高了解決方案的質量，這樣生成的回應就更相關。對於生成式人工智慧的變更描述，Verisk 希望捕捉變更的本質，而不僅僅是強調差異。結果由內部保單撰寫專家進行審查，並根據他們的反饋來確定提示、文件拆分策略和基礎模型。在提高輸出質量和相關性的技術到位後，Verisk 也優先考慮優化生成式人工智慧解決方案的性能和成本效益。這些技術是特定於提示工程的；一些例子包括少量提示、思考鏈提示和大海撈針的方法。

價格性能

為了實現更低的成本，Verisk 定期評估各種基礎模型選項，並在新選項以更低的成本和更好的性能推出時進行更改。在開發過程中，Verisk 重新設計了解決方案，以減少對基礎模型的調用次數，並在可能的情況下使用非基礎模型選項。

如前所述，整體解決方案由幾個不同的組件組成：

變更的位置
變更的摘錄
變更摘要
以追蹤變更格式顯示的變更

Verisk 通過識別包含差異的部分，然後將這些部分傳遞給基礎模型以生成變更摘要，減少了基礎模型的負擔並提高了準確性。為了構建包含紅線的追蹤差異格式，Verisk 使用了非基礎模型的解決方案。除了優化性能和成本，Verisk 還專注於為其生成式人工智慧解決方案開發模組化、可重用的架構。

可重用性

良好的軟體開發實踐同樣適用於生成式人工智慧解決方案的開發。你可以創建一個解耦的架構，並包含可重用的組件。Mozart 生成式人工智慧伴隨工具作為 API 提供，這樣就將其與前端開發解耦，並允許這項能力的重用。同樣，該 API 包含許多可重用的組件，如通用提示、通用定義、檢索服務、嵌入創建和持久化服務。透過模組化、可重用的設計方法和反覆優化過程，Verisk 能夠在其生成式人工智慧解決方案中取得非常滿意的結果。

結果

根據 Verisk 的評估模板問題和多輪測試，他們得出結論，生成的結果中有超過 90% 的摘要是良好或可接受的。測試是通過將解決方案的結果提供給商業專家，並讓這些專家使用評分標準對結果進行評分。

商業影響

Verisk 的客戶每次都需要花費大量時間來審查保單表單的變更。生成式人工智慧驅動的 Mozart 伴隨工具可以通過處理這些複雜和非結構化的保單文件，並在幾分鐘內提供變更摘要，簡化審查過程。這使得 Verisk 的客戶能夠將變更採納時間從幾天縮短到幾分鐘。提高的採納速度不僅增加了生產力，還能及時實施變更。

結論

Verisk 的生成式人工智慧驅動的 Mozart 伴隨工具使用先進的自然語言處理和提示工程技術，提供保險保單文件之間變更的快速和準確摘要。通過利用像 Anthropic 的 Claude 3 Sonnet 這樣的大型語言模型的力量，同時結合領域專業知識，Verisk 開發了一個顯著加速客戶保單審查過程的解決方案，將變更採納時間從幾天或幾週縮短到僅幾分鐘。這一創新的生成式人工智慧應用為保險行業帶來了實質的生產力提升和運營效率。憑藉強大的治理框架促進負責任的人工智慧使用，Verisk 在釋放生成式人工智慧潛力以轉變工作流程和推動全球風險環境的韌性方面走在前列。

欲了解更多資訊，請參見以下資源：

關於作者

Sundeep Sardana 是 Verisk Analytics 的軟體工程副總裁，總部位於新澤西州。他負責公司評分業務的 Reimagine 計畫，推動核心服務（如表單、規則和損失成本）的現代化。作為一位充滿活力的變革者和技術專家，Sundeep 專注於建立高效能團隊，培養創新文化，並利用新興技術提供可擴展的企業級解決方案。他的專業涵蓋雲計算、生成式人工智慧、軟體架構和敏捷開發，確保組織在不斷演變的數位環境中保持領先。可以在 LinkedIn 上與他聯繫。

Malolan Raman 是 Verisk 的首席工程師，總部位於新澤西州，專注於生成式人工智慧 (GenAI) 應用的開發。他在雲計算和人工智慧方面擁有豐富的經驗，並在將尖端人工智慧技術整合到可擴展、安全和高效的雲解決方案方面處於前沿。

Joseph Lam 是商業多線的高級總監，涵蓋一般責任、傘型/超額、商業財產、業主、資本資產、犯罪和內陸海運。他領導一個負責商業意外產品研究、開發和支持的團隊，這些產品主要由表單和規則組成。該團隊還負責支持新興市場的創新解決方案。

Maitri Shah 是 Verisk 的軟體開發工程師，擁有超過兩年的經驗，專注於在 Amazon Web Services (AWS) 上開發創新的生成式人工智慧 (GenAI) 解決方案。Maitri 在機器學習、雲計算和軟體工程方面有著堅實的基礎，成功實施了可擴展的人工智慧模型，為業務價值和用戶體驗增添了價值。