隨著數位平台的快速成長,影像安全變得越來越重要。危險的影像,包括露骨內容和暴力描繪,對內容管理帶來了重大挑戰。人工智慧生成內容(AIGC)的增加使這些挑戰更加嚴峻,因為先進的影像生成模型能輕易創造出不安全的視覺內容。目前的安全系統主要依賴人類標記的數據集,這些數據集既昂貴又難以擴展。此外,這些系統常常難以適應不斷變化和複雜的安全指導方針。有效的解決方案必須克服這些限制,同時確保高效和可靠的影像安全評估。
來自Meta、羅格斯大學(Rutgers University)、西湖大學(Westlake University)和馬薩諸塞大學阿默斯特分校(UMass Amherst)的研究人員開發了CLUE(Constitutional MLLM JUdgE),這是一個旨在解決傳統影像安全系統不足之處的框架。CLUE使用多模態大型語言模型(MLLMs)將主觀的安全規則轉換為客觀、可測量的標準。這個框架的主要特點包括:
- 規則物件化:將主觀的安全規則轉換為清晰、可操作的指導方針,以便MLLMs更好地處理。
- 規則-影像相關性檢查:利用CLIP有效過濾不相關的規則,通過評估影像和指導方針之間的相關性。
- 前提條件提取:將複雜的規則分解為簡化的前提條件鏈,以便更容易推理。
- 去偏見的標記概率分析:減少由語言先驗和非中心影像區域引起的偏見,以提高客觀性。
- 級聯推理:對於低信心的案例,使用更深層的推理鏈來提高決策的準確性。
技術細節與優勢
CLUE框架解決了與影像安全相關的MLLMs的主要挑戰。通過物件化安全規則,它用精確的標準取代了模糊的指導方針,例如指定「不應描繪有明顯、流血傷口的人,顯示出即將死亡的情況」。
使用CLIP進行的相關性掃描簡化了過程,通過去除與檢查影像無關的規則,從而減少計算負擔。這確保了框架只專注於相關規則,提高了效率。
前提條件提取模組將複雜的規則簡化為邏輯組件,使MLLMs能更有效地推理。例如,像「不應描繪任何身體著火的人」的規則被分解為「人是可見的」和「身體著火」等條件。
去偏見的標記概率分析是另一個顯著特徵。通過比較有無影像標記的標記概率,識別並最小化偏見。這減少了錯誤的可能性,例如將背景元素與違規行為聯繫起來。
級聯推理機制為低信心的情況提供了穩健的後備方案。通過逐步的邏輯推理,即使對於邊界案例,也能確保準確的評估,同時提供詳細的決策理由。
實驗結果與見解
CLUE的有效性已通過對各種MLLM架構的廣泛測試得到驗證,包括InternVL2-76B、Qwen2-VL-7B-Instruct和LLaVA-v1.6-34B。主要發現包括:
- 準確性和召回率:CLUE在InternVL2-76B上達到了95.9%的召回率和94.8%的準確率,超越了現有方法。
- 效率:相關性掃描模組過濾掉了67%的不相關規則,同時保留了96.6%的真實違規規則,顯著提高了計算效率。
- 通用性:與微調模型不同,CLUE在各種安全指導方針中表現良好,突顯了其可擴展性。
見解還強調了規則物件化和去偏見標記概率分析的重要性。物件化的規則達到了98.0%的準確率,而原始規則的準確率僅為74.0%,強調了清晰和可測量標準的價值。同樣,去偏見提高了整體判斷準確性,InternVL2-8B-AWQ模型的F1分數為0.879。
結論
CLUE提供了一種深思熟慮且高效的影像安全方法,通過利用MLLMs來解決傳統方法的限制。通過將主觀規則轉換為客觀標準、過濾不相關規則和利用先進的推理機制,CLUE為內容管理提供了可靠且可擴展的解決方案。其提供高準確性和適應性的能力,使其在應對AI生成內容的挑戰中成為一項重要的進展,為更安全的在線平台鋪平了道路。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!