利用大型語言模型提升數據質量的自然語言處理技術

編輯的註解：這篇文章接著討論了毒性、偏見和不良行為：使用大型語言模型 (LLMs) 時需要考慮的三個方面，以及三種自然語言處理 (NLP) 方法可以用來識別與 LLM 相關的私人數據洩漏並降低風險。

當你想到模型和數據質量時，首先想到的通常是行和列以及標準化欄位。也許這是一個簡單的問題，比如確保地址欄位的格式相同，或者更複雜的問題，比如檢查重要數字欄位的分佈並識別異常值。人們常常不會考慮他們的非結構化文本數據的質量。你如何標準化文本？你在尋找什麼，這在生成式人工智慧的領域中為什麼重要呢？

數據質量如何影響 LLMs？

大型語言模型 (LLMs) 是生成式人工智慧的核心，需要大量的數據來進行預訓練——數以兆計的標記。這為它們提供了語言基礎，使它們能夠使用連貫、語法和文法正確的語言回答一般問題。要讓 LLM 有效回答特定領域的問題，它需要接觸到與該領域相關的數據。這就是組織的非結構化數據質量變得重要的地方。

對於像 LLM 這樣的文本相關模型來說，更多的數據不一定是更好的。如果文本數據中有很多噪音、重複或模糊性，這會增加計算和存儲成本，並扭曲結果。LLMs 是高效的概率下一個詞生成器，因此它們接觸到的數據質量對它們生成的結果有直接影響。在這方面，基於語義規則的自然語言處理 (NLP) 技術和文本數據分析的能力可以為 LLMs 增加價值。

NLP 作為數據質量引擎

自然語言處理是一個擁有豐富能力的領域，可以用來管理所有非結構化文本數據的各個方面，遠不止文本生成。在過去的十年左右，基於語言規則的方法已被廣泛拋棄，取而代之的是黑箱機器學習技術，但它們在理解語言中的深層細微差別、融入主題專業知識和快速性能方面仍然具有巨大的優勢。一些基於規則的模型運行速度可以比機器學習技術快 9000 倍，非常適合實時分析。

SAS 的 NLP 擁有一套全面的語言規則，稱為 LITI——文本信息的語言解釋。LITI 可以用來進行從關鍵字層級的基本信息提取到基於術語和短語之間深層關係的複雜事實提取的所有工作。LITI 提供了豐富的能力來解決文本數據質量問題，幫助用戶針對適當的數據，減少文本中的噪音。

LITI 規則用於針對數據中提到的特定位置。

LLMs 的實際應用

想像一下，一家大型金融服務公司的客服中心。他們每個月可能會接到五十萬通電話。這些電話會被轉錄成文本，他們希望能夠使用 LLM 更好地理解趨勢。他們可以將一年的數據（大約六百萬通電話記錄）輸入 LLM 進行微調。不僅這些數據在記錄中會有重複和相似性，還可能隱藏著隱私問題。可能會提到姓名、帳號和其他個人識別信息 (PII) 的元素。

這些數據可能包含上下文的模糊性和不一致性。例如，一位客戶可能會說：“我想關閉我的帳戶”，但沒有提到帳戶的類型。它也可能有不一致性——特別是在金融產品或服務的實體名稱上。在某些對話中，產品名稱可能會以不同的方式提及。在這些情況下，模型可能會返回模糊或不完整的信息，或難以生成適當的回應來回答與產品相關的問題。

解決偏見和隱私問題

最後，還有偏見的問題。偏見無處不在，形式多樣，可能很微妙。LLMs 可能會放大或投射存在於預訓練數據中的偏見（這些數據是組織無法控制的）和用於微調的數據。確保組織不會在其模型中延續偏見是非常重要的。

LITI 可以用來建立能夠識別和針對包含 PII 的記錄的模型，不僅僅是傳統的實體，如姓名、地址或社會安全號碼，還包括可能特定於某個組織或業務單位的 PII 模式。一旦識別出來，就可以選擇刪除 PII 或將包含 PII 的整個記錄排除在用於微調 LLM 的語料庫之外。

管理模糊性

因為 LITI 可以用來捕捉語言中的深層細微差別，所以可以簡化在詞義層面和更高層次上（如商業相關術語或術語）的消歧義。可以識別並自動考慮或標記模糊性和不一致性。缺乏足夠上下文以正確消歧義的記錄可以從語料庫中刪除。捕捉深層細微差別的能力不僅有助於消歧義，還可以幫助區分良性語言和偏見或有害的語言。

SAS 擁有專利的文本分析選項，可以生成有關文本語料庫的描述性統計數據，從標記數量開始，這對於估算使用語料庫與 LLM 的每標記成本非常有價值。了解語料庫的組成可以幫助檢測重複和相似性。一旦識別出來，重複或近似重複的文件可以被過濾掉，減少用於微調的語料庫的大小。

SAS NLP 的力量

這些例子僅僅觸及了當你將 SAS NLP 的語言方法與 LLMs 結合時可能實現的潛力。這些技術不僅有助於解決文本數據中的質量問題，還因為它們可以融入主題專業知識，為組織提供了對其語料庫的巨大控制。在某些情況下，通過更好地策劃用於微調的數據，可以將語料庫的大小減少多達 90%。通過為微調策劃更好的數據，你可以從 LLM 獲得更好的回應，最小化幻覺的發生，並創建驗證回應的方法。

了解更多

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: 利用大型語言模型提升數據質量的自然語言處理技術

利用大型語言模型提升數據質量的自然語言處理技術

語言的用途是什麼？ | 麻省理工學院新聞

開發情感識別AI的倫理考量

Related Posts

OpenAI 正在開發代理人 — 每週 AI 通訊 (2025 年 3 月 17 日)

什麼是自然語言語義學？

阿拉伯方言的詞彙距離研究：全面概述

阿里巴巴發布 QwQ-32B 並附上理由 — 每週 AI 通訊 (2025 年 3 月 10 日)

GPT 4.5 發佈！ — 每週 AI 通訊 (2025 年 3 月 3 日)

自然語言處理的主要關鍵領域

開發情感識別AI的倫理考量

如何微軟透過Skeleton Key發現應對AI安全挑戰

發佈留言取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

利用大型語言模型提升數據質量的自然語言處理技術

數據質量如何影響 LLMs？

NLP 作為數據質量引擎

LLMs 的實際應用

解決偏見和隱私問題

管理模糊性

SAS NLP 的力量

了解更多

語言的用途是什麼？ | 麻省理工學院新聞

開發情感識別AI的倫理考量

Related Posts

發佈留言 取消回覆

Archives

Categories

Welcome Back!

Retrieve your password

發佈留言取消回覆