AI安全的新方法：層增強分類（LEC）| 作者：桑迪·貝森 | 2024年12月

LEC超越最佳模型，如GPT-4o，結合了機器學習分類器的效率與大型語言模型的語言理解能力

想像一下，坐在會議室裡，討論我們這個時代最具變革性的科技——人工智慧，卻發現我們正在乘坐一艘沒有可靠安全帶的火箭。在由英國政府主辦並得到29個國家支持的AI安全峰會上，Bletchley宣言完美地捕捉了這種感受：

“這些AI模型最重要的能力可能會帶來嚴重甚至災難性的傷害，無論是故意還是無意。”

然而，現有的AI安全方法迫使組織在成本、速度和準確性之間進行無法贏得的取捨。傳統的機器學習分類器難以捕捉自然語言的微妙之處，而大型語言模型雖然強大，但會引入顯著的計算開銷——需要額外的模型調用，這會增加每次AI安全檢查的成本。

我們的團隊（梅森·索特爾 (Mason Sawtell)、桑迪·貝森 (Sandi Besen)、圖拉·馬斯特曼 (Tula Masterman)、吉姆·布朗 (Jim Brown)）提出了一種名為LEC（層增強分類）的新方法。

我們證明了LEC結合了機器學習分類器的計算效率與大型語言模型的複雜語言理解能力——因此你不必在成本、速度和準確性之間做出選擇。LEC超越了像GPT-4o這樣的最佳模型，還有專門訓練用於識別不安全內容和提示注入的模型。更好的是，我們相信LEC可以修改以處理與AI安全無關的文本分類任務，如情感分析、意圖分類、產品分類等。

這一方法的影響深遠。無論你是技術領導者在複雜的AI安全領域中導航，還是產品經理在減輕潛在風險，或是高管在制定負責任的創新策略，我們的方法都提供了一種可擴展和適應的解決方案。

進一步的細節可以在Arxiv的完整論文預印本中找到，或在圖拉·馬斯特曼的文章摘要中了解。

負責任的AI已成為整個生態系統中技術領導者的關鍵優先事項——從模型開發者如安索普 (Anthropic)、開放AI (OpenAI)、Meta、谷歌 (Google) 和IBM，到企業諮詢公司和AI服務提供商。隨著AI的採用加速，其重要性變得更加明顯。

我們的研究專門針對AI安全中的兩個關鍵挑戰——內容安全和提示注入檢測。內容安全是指識別和防止生成有害、不當或可能危險的內容的過程，這些內容可能對用戶造成風險或違反道德準則。提示注入則涉及檢測試圖通過設計輸入提示來操縱AI系統的嘗試，這些提示旨在繞過安全機制或迫使模型產生不道德的輸出。

為了推進倫理AI的領域，我們將LEC的能力應用於現實世界的負責任AI用例。我們希望這種方法能被廣泛採用，幫助每個AI系統減少被利用的脆弱性。

我們策劃了一個包含5000個示例的內容安全數據集，以測試LEC在二元（2類）和多類（>2類）分類上的表現。我們使用了來自OpenSafetyLab的SALAD數據集來代表不安全內容，並使用了來自LMSYS的“LMSYS-Chat-1M”數據集來代表安全內容。

對於二元分類，內容要麼是“安全”的，要麼是“不安全”的。對於多類分類，內容要麼被分類為“安全”，要麼被分配到特定的“不安全”類別。

我們比較了使用LEC訓練的模型與GPT-4o（廣泛認可的行業領導者）、Llama Guard 3 1B和Llama Guard 3 8B（專門訓練用於處理內容安全任務的模型）。我們發現，使用LEC的模型在僅使用20個訓練示例進行二元分類和50個訓練示例進行多類分類的情況下，表現超過了所有比較的模型。

表現最佳的LEC模型在二元分類任務中達到了加權F1分數（衡量系統在平衡正確預測與最小化錯誤方面的能力）為0.96，滿分為1，而GPT-4o的分數為0.82，LlamaGuard 8B的分數為0.71。

這意味著，僅需15個示例，使用LEC你就可以訓練一個模型，在識別安全或不安全內容方面超越行業領導者，並且計算成本僅為其一小部分。

我們使用SPML聊天機器人提示注入數據集策劃了一個提示注入數據集。我們選擇SPML數據集是因為它在代表現實世界聊天機器人場景方面的多樣性和複雜性。這個數據集包含系統和用戶提示的配對，以識別試圖違反或操縱系統提示的用戶提示。這對於部署面向公眾的聊天機器人的企業尤其重要，這些聊天機器人僅用於回答特定領域的問題。

我們比較了使用LEC訓練的模型與GPT-4o（行業領導者）和deBERTa v3提示注入v2（專門訓練用於識別提示注入的模型）。我們發現，使用LEC的模型在使用55個訓練示例的情況下超越了GPT-4o，而專用模型則在僅使用5個訓練示例的情況下也被超越。

表現最佳的LEC模型在提示注入檢測中達到了加權F1分數為0.98，滿分為1，而GPT-4o的分數為0.92，deBERTa v2提示注入v2的分數為0.73。

這意味著，僅需5個示例，使用LEC你就可以訓練一個模型，在識別提示注入攻擊方面超越行業領導者。

完整的結果和實驗實施細節可以在Arxiv預印本中找到。

隨著組織越來越多地將AI整合到其運營中，確保AI驅動互動的安全性和完整性已成為至關重要的任務。LEC提供了一種強大而靈活的方法，以確保檢測到潛在不安全的信息——從而減少操作風險，並增強最終用戶的信任。有幾種方法可以將LEC模型納入你的AI安全工具包，以防止在使用AI工具時出現不必要的脆弱性，包括在LM推理期間、LM推理之前/之後，甚至在多代理場景中。

在LM推理期間

如果你正在使用開源模型或可以訪問閉源模型的內部運作，你可以將LEC作為AI安全推理管道的一部分，幾乎實時地使用。這意味著如果在信息通過語言模型時出現任何安全問題，可以停止生成任何輸出。這樣的情況可以在圖1中看到。

在LM推理之前/之後

如果你無法訪問語言模型的內部運作，或想將安全檢查作為單獨的任務，你可以在調用語言模型之前或之後使用LEC模型。這使得LEC與Claude和GPT系列等閉源模型兼容。

將LEC分類器構建到你的部署管道中，可以防止將潛在有害內容傳遞到你的LM中，或在輸出返回給用戶之前檢查有害內容。

使用LEC分類器與代理

代理AI系統可能會放大任何現有的意外行為，導致意外後果的累積效應。LEC分類器可以在代理場景的不同時間使用，以保護代理不接收或生成有害輸出。例如，通過將LEC模型納入你的代理架構，你可以：

檢查請求是否可以開始處理
確保調用的工具不違反任何AI安全準則（例如，生成不當的關鍵字搜索主題）
確保返回給代理的信息不是有害的（例如，從RAG搜索或谷歌搜索返回的結果是“安全的”）
在將最終回應傳回用戶之前進行驗證

如何根據語言模型訪問實施LEC

擁有模型內部運作訪問權限的企業可以直接在推理管道中集成LEC，從而在AI的內容生成過程中實現持續的安全監控。當通過API使用閉源模型（如GPT-4）時，企業無法直接訪問訓練LEC模型所需的底層信息。在這種情況下，LEC可以在模型調用之前和/或之後應用。例如，在API調用之前，可以篩選輸入以檢查不安全內容。調用後，可以驗證輸出以確保其符合業務安全協議。

無論你選擇哪種方式實施LEC，使用其強大的能力都能為你提供比現有技術更優越的內容安全和提示注入保護，且所需時間和成本僅為其一小部分。

層增強分類（LEC）是我們所乘坐的AI火箭的安全帶。

其價值主張清晰明瞭：LEC的AI安全模型可以減輕監管風險，幫助確保品牌保護，並增強用戶對AI驅動互動的信任。這標誌著AI開發的新時代，在這裡準確性、速度和成本不再是競爭優先事項，AI安全措施可以在推理時、推理之前或推理之後進行處理。

在我們的內容安全實驗中，表現最佳的LEC模型在二元分類中達到了0.96的加權F1分數，滿分為1，顯著超過了GPT-4o的0.82和LlamaGuard 8B的0.71——這是在僅使用15個訓練示例的情況下實現的。同樣，在提示注入檢測中，我們的頂級LEC模型達到了0.98的加權F1分數，而GPT-4o的分數為0.92，deBERTa v2提示注入v2的分數為0.73，這是在僅使用55個訓練示例的情況下實現的。這些結果不僅展示了卓越的性能，還突顯了LEC以最少的訓練數據實現高準確性的卓越能力。

儘管我們的工作專注於使用LEC模型進行AI安全用例，但我們預計我們的方法可以用於更廣泛的文本分類任務。我們鼓勵研究社群將我們的工作作為探索其他可能性的跳板——進一步開啟更智能、更安全和更值得信賴的AI系統的新途徑。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！