有毒性、偏見與不良行為者：使用大型語言模型時需要考慮的三件事

編輯者的註解：這篇文章探討了如何利用自然語言處理技術來改善數據品質，並介紹了三種方法來識別與大型語言模型 (LLMs) 相關的私人數據洩漏，降低風險。

大型語言模型 (LLMs) 透過大量數據的訓練，讓機器能夠生成類似人類的回應，這在人工智慧領域帶來了革命性的變化。在使用 LLMs 時，管理有害內容、偏見和不良行為者是確保可信結果的關鍵。我們來看看組織在處理這些重要問題時應該考慮什麼。

了解 LLMs 中的有害內容和偏見

LLMs 的強大能力伴隨著重大挑戰，例如無意中學習和傳播有害和偏見的語言。有害內容是指生成有害、辱罵或不當的內容，而偏見則是指強化不公平的成見或刻板印象。這兩者都可能導致歧視性的結果，對個人和社區造成負面影響。

識別和管理有害內容與偏見

樣本偏見和有害內容分類

解決有害內容和偏見的一個障礙是缺乏對許多 LLMs 預訓練數據的透明度。如果無法了解訓練數據的內容，就很難理解這些問題在模型中的程度。因為需要將現成的模型暴露於特定領域的數據，以解決與業務相關的使用案例，組織有機會進行盡職調查，確保他們引入 LLM 的任何數據不會加劇問題。

雖然許多 LLM 供應商提供內容審核的應用程式介面 (APIs) 和工具來減輕有害內容和偏見的影響，但這些可能不夠充分。在我之前的文章中，我介紹了 SAS 的自然語言處理強大工具 LITI。除了處理數據質量問題外，LITI 還可以幫助識別和預過濾有害內容和偏見。通過將 LITI 與 SAS 的探索性自然語言處理技術（如主題分析）結合，組織可以更深入地了解其文本數據中潛在的問題內容。這種主動的方法使他們能夠在將數據整合到 LLMs 之前，通過檢索增強生成 (RAG) 或微調來減輕問題。

用於預過濾內容的模型還可以作為 LLM 和最終用戶之間的中介，檢測並防止接觸到有問題的內容。這種雙層保護不僅提高了輸出的質量，還保護用戶免受潛在的傷害。能夠針對與仇恨言論、威脅或猥褻等方面相關的特定語言類型進行針對性處理，為組織提供了額外的安全保障，並使其靈活應對可能對其業務獨特的潛在問題。因為這些模型可以處理語言中的細微差別，所以它們也可以用來檢測更微妙、針對性的偏見，例如政治暗示。

偏見和有害內容是需要持續讓人類介入以提供監督的重要領域。自動化工具可以顯著減少有害內容和偏見的發生，但它們並非萬無一失。持續的監測和審查對於捕捉自動系統可能錯過的情況至關重要。這在動態環境中特別重要，因為隨著時間的推移，新的有害內容類型可能會出現。隨著新趨勢的發展，LITI 模型可以進行增強以適應這些變化。

應對不良行為者的操控

LLMs 的有害或偏見輸出並不總是由於訓練數據的內在缺陷。在某些情況下，模型可能因為受到不良行為者的操控而表現出不當行為。這可能包括故意試圖利用模型的弱點，通過惡意的提示注入或越獄攻擊。

惡意提示注入是一種針對 LLMs 的安全攻擊。這涉及將惡意輸入與正常的預期輸入串聯在一起，目的是改變預期的輸出。惡意提示注入可用於獲取敏感數據、執行惡意代碼或強迫模型返回或明確忽略其指令。

第二種攻擊是越獄攻擊。它與惡意提示注入不同，因為在越獄攻擊中，所有提示都不是正常的。這項研究展示了一些使用提示後綴的越獄示例。一個提示要求模型提供從非營利組織竊取的計劃大綱。沒有提示後綴時，模型回應說它無法協助。添加提示後綴會導致模型繞過其保護並生成回應。越獄和惡意提示注入可能涉及將模型暴露於無意義或重複的模式、隱藏的 UTF-8 字符，以及在典型用戶提示中不會出現的字符組合。LITI 是識別模式的好工具，使其成為測試或內容審核工具箱中的強大補充。

負責任的人工智慧開發

對於創建公平、不帶偏見和無有害內容的 LLMs 的研究仍在進行中，這需要結合先進的技術工具、人類監督和對倫理人工智慧實踐的承諾。像 LITI 這樣的強大工具與穩健的監控策略相結合，可以幫助組織顯著減少 LLM 輸出中的有害內容和偏見的影響。這不僅增強了用戶的信任，還有助於發展負責任的人工智慧系統，造福社會而不造成傷害。