大型語言模型(LLMs)的快速進步為各行各業帶來了重要的機會。然而,這些模型在現實世界中的應用也面臨挑戰,例如生成有害內容、出現幻覺和潛在的倫理濫用。LLMs可能會產生社會偏見、暴力或粗俗的輸出,壞人常常利用漏洞來繞過安全措施。另一個關鍵問題是檢索增強生成(RAG)系統,這些系統將外部數據整合進來,但可能提供與上下文無關或事實不正確的回應。解決這些挑戰需要強有力的保障措施,以確保負責任和安全的人工智慧使用。
為了應對這些風險,IBM推出了Granite Guardian,這是一套開源的風險檢測保障措施。這套系統旨在檢測和減輕多種風險。Granite Guardian可以識別有害的提示和回應,涵蓋社會偏見、粗俗語言、暴力、不道德行為、性內容和與RAG系統相關的幻覺問題。作為IBM開源倡議的一部分,Granite Guardian旨在促進透明度、合作和負責任的人工智慧發展。這套系統擁有全面的風險分類和由人類標註及合成對抗樣本豐富的訓練數據集,提供多樣化的風險檢測和減輕方案。
技術細節
Granite Guardian的模型基於IBM的Granite 3.0框架,提供兩種版本:一種是輕量級的20億參數模型,另一種是更全面的80億參數版本。這些模型整合了多種數據來源,包括人類標註的數據集和對抗性生成的合成樣本,以增強其在多種風險中的泛化能力。該系統有效地解決了越獄檢測問題,這在傳統安全框架中常被忽視,使用設計用來模擬複雜對抗攻擊的合成數據。此外,這些模型還具備解決RAG特定風險的能力,如上下文相關性、基礎性和答案相關性,確保生成的輸出符合用戶意圖和事實準確性。
Granite Guardian的一個顯著特點是其適應性。這些模型可以作為實時的安全防護或評估者,整合到現有的人工智慧工作流程中。其高性能指標,包括對有害內容的AUC分數為0.871,對RAG幻覺基準的AUC分數為0.854,顯示其在多種場景中的適用性。此外,Granite Guardian的開源特性鼓勵社群驅動的改進,促進人工智慧安全實踐的提升。
見解與結果
廣泛的基準測試突顯了Granite Guardian的有效性。在公共數據集上進行有害內容檢測時,80億參數版本的AUC達到0.871,超越了Llama Guard和ShieldGemma等基準。其精確度-召回率的權衡,AUPRC為0.846,反映出其檢測有害提示和回應的能力。在與RAG相關的評估中,這些模型表現強勁,80億參數模型在識別基礎性問題時達到0.895的AUC。
這些模型在多樣數據集中的泛化能力,包括對抗性提示和現實世界用戶查詢,展示了其穩健性。例如,在ToxicChat數據集上,Granite Guardian展現了高召回率,有效標記有害互動,並且誤報率極低。這些結果表明,這套系統能在實際的人工智慧部署中提供可靠且可擴展的風險檢測解決方案。
結論
IBM的Granite Guardian提供了一個全面的解決方案,以保護LLMs免受風險,強調安全性、透明度和適應性。其檢測各種風險的能力,加上開源的可及性,使其成為希望負責任地部署人工智慧的組織的寶貴工具。隨著LLMs的持續進化,像Granite Guardian這樣的工具確保這一進步伴隨著有效的保障措施。通過支持合作和社群驅動的改進,IBM為推進人工智慧安全和治理做出了貢獻,促進了更安全的人工智慧環境。
查看論文、Granite Guardian 3.0 2B、Granite Guardian 3.0 8B和GitHub頁面。所有研究的功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。還有,別忘了加入我們的60k+機器學習SubReddit。
🚨 熱門消息:LG AI Research發布EXAONE 3.5:三個開源雙語前沿AI級模型,提供無與倫比的指令跟隨和長上下文理解,領導全球生成AI卓越……。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!