如果員工不小心將敏感資訊輸入公共大型語言模型(LLM),會發生什麼事?這些資訊會洩漏給其他使用相同LLM的用戶嗎?
例如,如果你請求 ChatGPT 或 Claude 讀取並總結一份機密合約、病歷或客戶投訴的記錄,你就不小心將這些資訊提供給了一個公共來源,這可能會在未經你許可的情況下與其他用戶分享你的輸入。
大型語言模型的潛在數據洩漏是一個我們不夠重視的嚴重問題。目前,我們看到很多關注焦點放在使用LLM時的幻覺風險上。然而,防止幻覺主要是質量控制的問題,而數據洩漏則更像是安全和數據隱私的問題,這是建立AI系統安全性和信任的關鍵關注點。
每個組織都應該密切監控三個領域,以防止LLM中的數據洩漏:提示數據洩漏、模型數據洩漏和訓練數據中的測試數據洩漏。
接下來,我將更詳細地描述每個領域,並提供防止數據洩漏的建議。
1. 提示中的洩漏
提示洩漏通常是無意間發生的,但這是一個關鍵的安全風險,因為很少有人意識到LLM會保留它們所接收到的所有信息,並可能被有不良意圖的人利用。
撰寫提示更像是一種藝術而不是科學,因此,雖然員工可能在嘗試生成式AI(GenAI),但他們可能會使用個人可識別信息(PII)或來自組織的知識產權來創建提示。
在讓員工使用GenAI之前,確保他們接受過良好的提示撰寫和防止PII洩漏的培訓。
此外,要注意一些員工可能在未經許可或你不知情的情況下使用GenAI,他們可能使用不保護輸入數據的免費服務。再次強調,組織內部對GenAI和LLM的培訓對於防止重要數據洩漏至關重要。
報告:GenAI幾年前突然出現,但我們現在在哪裡?
2. 模型數據洩漏
模型數據洩漏發生在你的模型在回應中返回PII時。
假設有人詢問模型有關高淨值個人的一般投資策略。也許該模型是基於包含這些個人姓名或其獨特投資策略的數據集進行訓練的。
即使你只是詢問一般的投資策略,模型也可能不小心透露某個人的姓名。
這非常令人擔憂,因為我們知道模型已經記住了這些信息,並且可能會廣泛傳播到任何LLM提示中。
為了防止這些風險,建立AI模型的團隊應該訓練模型不要釋放私人信息,並且用戶應該報告任何私人信息的洩漏。
3. 訓練數據中的測試數據洩漏
當測試數據包含在訓練數據中時,很難驗證模型的準確性和概括性,因為我們無法確定模型已經看過什麼。
必須將LLM的訓練數據與模型數據分開,以防止導致不準確結果的錯誤決策。你還需要定期進行數據審核,以確保數據集不含有污染數據。
這一切意味著什麼?
雖然我們中的許多人不再認為LLM和GenAI是新技術,但在盲目採用最新工具之前,仍有很多東西需要學習。
組織必須了解數據洩漏的危險,才能開始根除它。你現在不知道的事情,可能比你知道的事情更重要。
雖然看起來跟上最新技術的重要性可能足以超越對於在LLM中不小心洩漏小部分PII或知識產權的擔憂,但你需要考慮當今世界的連接性。洩漏的數據可能會落入全球數據販賣組織的手中。
雖然不斷向前看很重要,但更重要的是防範那些可能在你不知情的情況下竊取和販賣你的數據的人。
閱讀更多:生成式AI和大型語言模型的解密
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!