提升資訊擷取的五個步驟，使用可信賴的生成式人工智慧

生成式人工智慧 (GenAI) 和大型語言模型 (LLMs) 現在正在開啟新的準確性和可擴展性，提供靈活且幾乎即用的解決方案來提取資訊。

每當大型語言模型出現時，通常會討論成本、安全性和隱私問題。不過，作為一名數據科學家，主要的問題是：「我如何能信任一個生成式的 LLM 提供可靠且不會出現幻覺的結果？」

資訊提取被證明是一種珍貴的方法，可以將非結構化的文本轉換為有價值的結構化數據。例如，這些數據可以用來改善預測模型、豐富搜索用的索引或設計可解釋的分類模型。

資訊提取的實踐可以追溯到1970年代初期，並建立在自然語言處理 (NLP) 和語言學的堅實基礎上。這種方法穩健且可重複，但根據要提取的模式的複雜性，可能會遇到一些障礙。例如，描述上下文依賴的規則可能是一項艱巨的任務，尤其是在文本文件中沒有標準化的情況下。此外，撰寫語言規則需要對語言有一定的了解，並且在全球範圍內可能無法很好地擴展。那麼，我們如何能結合這兩個世界的優點呢？

這就是 SAS Visual Text Analytics (VTA) 中 NLP 的力量發揮作用的地方！

假設我被要求從製藥行業的監管文件中提取不良反應。要列出一個全面的不良反應清單是很困難的，尤其是對於超過20種語言（例如，在歐盟中要求的）。因此，我們將使用一個大型語言模型，搭配精心設計的提示來提取這些不良反應，然後使用 SAS Visual Text Analytics 來建立一個可靠的方式，信任和驗證 LLM 提取的質量。

這個方法基於五個主要步驟：

1. LLM 提取的標記化和詞形還原 2. 過濾不相關或不重要的術語 3. 利用名詞組識別 4. 自動創建語言規則 5. 規則推斷和信心分數計算

假設 LLM 模型提取了「肝轉氨酶升高」作為不良反應。讓我們繼續驗證它。

步驟 1：標記化和詞形還原

從 LLM 的提取結果中進行標記化，並應用詞形還原，以將每個術語與其詞根相匹配（見 _Parent_ 列）。此外，還會將詞性標記附加到每個標記上（見 _Role_ 列）。

步驟 2：過濾不相關或不重要的術語

SAS VTA 提供了預定義的停止詞列表，可以用來過濾掉可以忽略的術語，因為它們不包含特定資訊（如冠詞、介詞等）。如果需要，停止詞列表也可以自定義。

利用詞性分析，還可以根據術語的角色過濾掉不相關的術語。

步驟 3：利用名詞組識別

SAS VTA 可以提取名詞組，例如主名詞和緊密相關的修飾詞。在這種情況下，檢測特定的臨床概念非常有用，而不需要事先的知識（例如，「肝轉氨酶」比單獨的「肝」或「轉氨酶」更具資訊量）。在這一步中，當名詞組中的標記被單獨考慮時，會被丟棄，只作為名詞組的一部分。

步驟 4：自動創建語言規則

在這個階段，對於每個 LLM 提取，我們有了只有最相關術語的子集，並且可以建立一個加權的 LITI 規則，尋找這些術語在更廣泛的上下文中的出現。關於文本資訊的語言解釋 (LITI) 規則的更多資訊，請參見 SAS 文檔鏈接。請注意，LITI 規則是通過連接適當的運算符和在前面步驟中提取的術語自動生成的。

步驟 5：規則推斷和信心分數計算

最後，使用 LLM 提取資訊的同一文本資料，可以根據 LITI 規則進行評分，以檢查該資訊是否實際存在。根據規則匹配的相關術語數量計算信心分數。信心分數是一個介於 0 和 1 之間的數字，數值越高表示提取的質量越好。

例如，請參見 LITI 規則在文本文件中識別的匹配結果，這些結果與原始提取有些許變化：

這個過程足夠穩健，可以匹配具有相同概念變體的文件。例如，「增加」和「正在增加」可以替代「增加」，或「轉氨酶」可以替代「轉氨酶」。在第一個文件中，信心較低，因為它僅匹配「肝轉氨酶」。在這種情況下，可能需要人類進行二次檢查，但自動化仍然減少了許多需要完成的手動任務。

最後，這是一個可以幫助識別幻覺案例的例子。假設輸入文件包含以下不良反應：「血液計數變化，例如血小板減少症和顆粒白血球缺乏症」，假設三個不同的 LLM 模型給出的提取結果如下表：

如果 LLM 模型產生了輸入文件中不存在的不良反應，則信心分數會下降。

因此，這種方法也可以用來評估不同的 LLM 模型或不同的提示，提供可量化和穩健的準確性指標。

注意：這個例子是用英文寫的，但可以複製到 VTA 支持的所有 33 種語言，只需設置語言參數並重複使用所有內容。這裡有支持的語言列表。

SAS Visual Text Analytics 是一個強大的工具，結合了自然語言處理、機器學習和語言規則。它可以用來建立穩固的管道來處理文本數據，例如對 LLM 提取的信息進行質量檢查。它還可以用來衡量結果的信心，並幫助建立對 AI 工具的信任。輸出是可靠的、可重複的和可擴展的，考慮到可以無縫處理的數據量和支持的語言數量。

SAS 自然語言處理部落格文章

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 提升資訊擷取的五個步驟使用可信賴的生成式人工智慧

提升資訊擷取的五個步驟，使用可信賴的生成式人工智慧

理解認知及其功能失調 — 神經科學家必須學習其節奏 | 麻省理工學院新聞

表觀基因組分析揭示ALS風險因素 | MIT新聞

Related Posts

OpenAI 正在開發代理人 — 每週 AI 通訊 (2025 年 3 月 17 日)

什麼是自然語言語義學？

阿拉伯方言的詞彙距離研究：全面概述

阿里巴巴發布 QwQ-32B 並附上理由 — 每週 AI 通訊 (2025 年 3 月 10 日)

GPT 4.5 發佈！ — 每週 AI 通訊 (2025 年 3 月 3 日)

自然語言處理的主要關鍵領域

表觀基因組分析揭示ALS風險因素 | MIT新聞

生成式人工智慧如何協助刑事調查的三種方式三種生成式AI可以協助刑事調查的方法三種方式利用生成式AI協助刑事調查

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

提升資訊擷取的五個步驟，使用可信賴的生成式人工智慧

生成式人工智慧 (GenAI) 和大型語言模型 (LLMs) 現在正在開啟新的準確性和可擴展性，提供靈活且幾乎即用的解決方案來提取資訊。

步驟 1：標記化和詞形還原

步驟 2：過濾不相關或不重要的術語

步驟 3：利用名詞組識別

步驟 4：自動創建語言規則

步驟 5：規則推斷和信心分數計算

理解認知及其功能失調 — 神經科學家必須學習其節奏 | 麻省理工學院新聞

表觀基因組分析揭示ALS風險因素 | MIT新聞

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆