OpenAI 的一個關鍵保護過程是「紅隊測試」——這是一種結構化的方法,利用人類和人工智慧參與者來探索新系統中的潛在風險和漏洞。
歷史上,OpenAI 主要通過手動測試來進行紅隊測試,這涉及個人尋找弱點。這一方法在 2022 年初的 DALL·E 2 圖像生成模型測試中得到了顯著應用,當時外部專家被邀請識別潛在風險。自那以後,OpenAI 擴展並完善了其方法,融入了自動化和混合的方法,以便進行更全面的風險評估。
OpenAI 表示:「我們對能夠使用更強大的 AI 來擴大模型錯誤的發現感到樂觀。」這種樂觀源於自動化過程能夠幫助評估模型並通過識別模式和錯誤來訓練它們變得更安全的理念。
在他們最新的推進中,OpenAI 分享了兩份關於紅隊測試的重要文件——一份白皮書詳細說明了外部參與策略,以及一項研究介紹了一種新穎的自動化紅隊測試方法。這些貢獻旨在加強紅隊測試的過程和結果,最終導致更安全和更負責任的 AI 實施。
隨著 AI 的不斷發展,理解用戶體驗和識別如濫用和誤用等風險對研究人員和開發人員至關重要。紅隊測試提供了一種主動評估這些風險的方法,特別是當有來自各種獨立外部專家的見解補充時。這種方法不僅有助於建立基準,還促進了隨著時間推移對安全評估的加強。
人性化的接觸
OpenAI 在其白皮書「OpenAI 對 AI 模型和系統的外部紅隊測試方法」中分享了設計有效紅隊測試活動的四個基本步驟:
- 紅隊的組成:根據活動的目標選擇團隊成員。這通常涉及具有多樣化觀點的個體,例如在自然科學、網絡安全和地區政治方面的專家,以確保評估涵蓋必要的廣度。
- 訪問模型版本:澄清紅隊成員將訪問哪些版本的模型可以影響結果。早期階段的模型可能會揭示固有風險,而更成熟的版本可以幫助識別計劃安全措施中的差距。
- 指導和文檔:活動期間的有效互動依賴於明確的指示、合適的界面和結構化的文檔。這包括描述模型、現有的安全措施、測試界面以及記錄結果的指導方針。
- 數據合成和評估:活動結束後,對數據進行評估,以確定示例是否符合現有政策或需要新的行為修改。評估後的數據將為未來的更新提供可重複的評估依據。
最近這一方法的應用涉及為 OpenAI o1 系列模型準備公開使用——測試它們對潛在誤用的抵抗力,並評估它們在現實攻擊計劃、自然科學和 AI 研究等各個領域的應用。
自動化紅隊測試
自動化紅隊測試旨在識別 AI 可能失敗的情況,特別是在安全相關問題上。這種方法在規模上表現出色,能快速生成大量潛在錯誤的示例。然而,傳統的自動化方法在產生多樣化、成功的攻擊策略方面一直面臨挑戰。
OpenAI 的研究引入了「利用自動生成的獎勵和多步強化學習進行多樣化和有效的紅隊測試」,這是一種鼓勵攻擊策略多樣性的同時保持有效性的方法。
這種方法涉及使用 AI 生成不同的情境,例如非法建議,並訓練紅隊模型對這些情境進行批判性評估。該過程獎勵多樣性和有效性,促進了更為多樣和全面的安全評估。
儘管有其優勢,紅隊測試也有其局限性。它捕捉的風險是在特定時間點,這些風險可能隨著 AI 模型的發展而演變。此外,紅隊測試過程可能無意中創造信息危險,潛在地使惡意行為者警覺到尚未廣泛知曉的漏洞。管理這些風險需要嚴格的協議和負責任的披露。
雖然紅隊測試在風險發現和評估中仍然至關重要,但 OpenAI 認識到納入更廣泛的公共觀點對 AI 理想行為和政策的必要性,以確保技術與社會價值觀和期望相一致。
另請參見:歐盟推出 AI 模型的草擬監管指導
想了解更多有關 AI 和大數據的行業領導者的資訊嗎?請查看在阿姆斯特丹、加州和倫敦舉行的 AI 和大數據博覽會。這一綜合性活動與其他領先活動共同舉行,包括智能自動化會議、BlockX、數字轉型週和網絡安全與雲博覽會。
在這裡探索 TechForge 提供的其他即將舉行的企業技術活動和網絡研討會。