旅行者保險如何利用亞馬遜Bedrock和提示工程對電子郵件進行分類

這是一篇由 Travelers 的 Jordan Knight、Sara Reynolds 和 George Lee 共同撰寫的客座部落格文章。

基礎模型（Foundation models, FMs）有很多用途，能在文本生成、文本摘要和問題回答等任務上表現良好。越來越多的 FMs 正在完成以前由監督學習解決的任務。監督學習是機器學習（Machine Learning, ML）的一個子集，涉及使用標記數據集來訓練算法。在某些情況下，較小的監督模型已顯示出能在生產環境中運作，同時滿足延遲要求。然而，使用像 Amazon Bedrock 這樣的 API 服務來建立基於 FM 的分類器有其好處，例如系統開發的速度、模型之間的切換能力、快速實驗以進行提示工程的迭代，以及擴展到其他相關分類任務的能力。基於 FM 的解決方案還能提供輸出理由，而傳統分類器則缺乏這種能力。除了這些特性，現代的 FMs 也足夠強大，能滿足準確性和延遲要求，取代監督學習模型。

在這篇文章中，我們將介紹生成式 AI 創新中心（Generative AI Innovation Center, GenAIIC）如何與領先的財產和意外保險公司 Travelers 合作，通過提示工程開發基於 FM 的分類器。Travelers 每年收到數百萬封電子郵件，裡面包含代理人或客戶的保單服務請求。GenAIIC 和 Travelers 建立的系統利用 FMs 的預測能力，將複雜且有時模糊的服務請求電子郵件分類為幾個類別。這個 FM 分類器驅動的自動化系統可以節省數萬小時的手動處理時間，並將這些時間重新導向到更複雜的任務上。使用 Anthropic 的 Claude 模型在 Amazon Bedrock 上，我們將問題定義為分類任務，並通過提示工程和與業務專家的合作，達到了 91% 的分類準確率。

問題定義

主要任務是將 Travelers 收到的電子郵件分類為服務請求類別。請求涉及地址變更、保險範圍調整、薪資更新或風險變更等領域。儘管我們使用了預訓練的 FM，但問題被定義為文本分類任務。然而，我們並沒有使用監督學習，這通常需要訓練資源，而是使用了提示工程和少量示例提示來預測電子郵件的類別。這使我們能夠使用預訓練的 FM，而不必承擔訓練的成本。工作流程從一封電子郵件開始，然後根據電子郵件的文本和任何 PDF 附件，模型對電子郵件進行分類。

需要注意的是，微調 FM 是另一種方法，可以提高分類器的性能，但需要額外的成本。通過整理更長的示例和預期輸出列表，可以訓練 FM 在特定任務上表現得更好。在這種情況下，由於僅使用提示工程的準確性已經很高，因此微調後的準確性必須證明其成本是合理的。雖然在合作期間，Anthropic 的 Claude 模型尚未在 Amazon Bedrock 上提供微調，但現在 Anthropic 的 Claude Haiku 微調已經在 Amazon Bedrock 上進行測試。

解決方案概述

以下圖示展示了分類電子郵件的解決方案流程。

工作流程包括以下步驟：

原始電子郵件被輸入到流程中。從電子郵件文本文件中提取正文。

如果電子郵件有 PDF 附件，則解析 PDF。

將 PDF 拆分為單獨的頁面。每頁保存為圖像。

使用 Amazon Textract 處理 PDF 頁面圖像，以提取文本、特定實體和表格數據，並使用光學字符識別（OCR）。

解析電子郵件中的文本。

如果需要，清理電子郵件文本中的 HTML 標籤。

將電子郵件正文和 PDF 附件的文本合併為大型語言模型（Large Language Model, LLM）的單一提示。

Anthropic 的 Claude 將這些內容分類為 13 個定義類別之一，然後返回該類別。每封電子郵件的預測結果進一步用於性能分析。

Amazon Textract 有多種用途，例如提取電子郵件附件中表單的原始文本。還包括額外的實體提取和表格數據檢測，以識別姓名、保單號碼、日期等。然後將 Amazon Textract 的輸出與電子郵件文本結合，提供給模型以決定適當的類別。

這個解決方案是無伺服器的，這對組織有很多好處。使用無伺服器解決方案，AWS 提供管理解決方案，降低擁有成本並減少維護的複雜性。

數據

真實數據集包含超過 4,000 個標記的電子郵件示例。原始電子郵件為 Outlook .msg 格式和 .eml 格式。約 25% 的電子郵件有 PDF 附件，其中大部分是 ACORD 保險表格。這些 PDF 表格包含提供分類器信號的額外細節。僅處理 PDF 附件以限制範圍；其他附件被忽略。對於大多數示例，正文文本包含與 13 個類別之一對應的預測信號。

提示工程

為了建立強大的提示，我們需要充分理解類別之間的差異，以便為 FM 提供足夠的解釋。通過手動分析電子郵件文本並諮詢業務專家，提示中包含了一系列明確的指示，告訴如何對電子郵件進行分類。額外的指示顯示了如何幫助 Anthropic 的 Claude 識別關鍵短語，以區分電子郵件的類別。提示中還包括少量示例，展示如何執行分類，以及輸出示例，顯示 FM 如何格式化其回應。通過向 FM 提供示例和其他提示技術，我們能夠顯著減少 FM 輸出結構和內容的變異性，從而實現可解釋、可預測和可重複的結果。

提示的結構如下：

角色定義

整體指示

少量示例

每個類別的詳細定義

電子郵件數據輸入

最終輸出指示

要了解更多關於 Anthropic 的 Claude 的提示工程，請參考 Anthropic 文檔中的提示工程部分。

「Claude 理解複雜保險術語和細微的保單語言的能力，使其特別擅長電子郵件分類等任務。它解釋上下文和意圖的能力，即使在模糊的通信中，也與保險操作面臨的挑戰完全一致。我們很高興看到 Travelers 和 AWS 如何利用這些能力創造出如此高效的解決方案，展示了 AI 轉變保險流程的潛力。」

– Jonathan Pelosi, Anthropic

結果

為了讓基於 FM 的分類器能夠在生產環境中使用，它必須顯示出高水平的準確性。最初在沒有提示工程的測試中，準確率為 68%。在使用多種技術與 Anthropic 的 Claude v2 進行後，通過提示工程、合併類別、調整文檔處理過程和改善指示，準確率提高到 91%。Anthropic 的 Claude Instant 在 Amazon Bedrock 上的表現也很好，準確率達到 90%，並識別出其他改進的領域。

結論

在這篇文章中，我們討論了如何通過提示工程可靠地自動化保險服務電子郵件的分類。當將問題定義為分類任務時，FM 可以在生產環境中表現良好，同時保持擴展到其他任務的能力，並能快速啟動。所有實驗都是使用 Anthropic 的 Claude 模型在 Amazon Bedrock 上進行的。

關於作者

Jordan Knight 是 Travelers 商業保險分析與研究部的高級數據科學家。他熱衷於解決現實世界中的計算機視覺問題，並探索新的尖端方法。他特別關心機器學習模型的社會影響，以及如何持續改善建模過程，以開發對所有人公平的機器學習解決方案。在空閒時間，他喜歡攀岩、健行或繼續提升他的烹飪技能。

Sara Reynolds 是 Travelers 的產品負責人。作為企業 AI 團隊的一員，她推動了使用 AI 和雲端技術轉型操作流程的努力。她最近獲得了學業碩士學位和學習技術博士學位，並擔任北德克薩斯大學的兼任教授。

George Lee 是 Travelers Insurance 的國際數據科學與生成式 AI 負責人。他專注於開發企業 AI 解決方案，專長於生成式 AI 和大型語言模型。他主導了幾個成功的 AI 項目，並擁有兩項 AI 驅動風險評估的專利。他在伊利諾伊大學香檳分校獲得了計算機科學碩士學位。

Francisco Calderon 是生成式 AI 創新中心（Generative AI Innovation Center, GAIIC）的數據科學家。作為 GAIIC 的成員，他幫助 AWS 客戶探索生成式 AI 技術的可能性。在空閒時間，Francisco 喜歡彈音樂和吉他，與女兒一起踢足球，並享受與家人共度的時光。

Isaac Privitera 是 AWS 生成式 AI 創新中心的首席數據科學家，專注於開發定制的生成式 AI 解決方案，以解決客戶的商業問題。他主要專注於建立負責任的 AI 系統，使用 RAG、多代理系統和模型微調等技術。在不沉浸於 AI 世界的時候，Isaac 喜歡在高爾夫球場上、享受足球比賽或與他的忠實狗伴侶 Barry 一起健行。