在2023年底,一組第三方研究人員發現了OpenAI廣泛使用的人工智慧模型GPT-3.5中的一個令人擔憂的故障。
當被要求重複某些詞語一千次時,這個模型開始不斷重複這個詞,然後突然轉而輸出無法理解的文字和從其訓練數據中提取的個人信息片段,包括姓名、電話號碼和電子郵件地址的部分。發現這個問題的團隊與OpenAI合作,確保在公開之前修復了這個缺陷。這只是近年來在主要人工智慧模型中發現的眾多問題之一。
在今天發布的一項提案中,超過30位知名的人工智慧研究人員,包括一些發現GPT-3.5缺陷的專家,表示許多其他影響流行模型的漏洞以問題的方式被報告。他們建議由人工智慧公司支持的一個新計劃,允許外部人員檢查他們的模型,並提供一種公開披露缺陷的方法。
麻省理工學院(MIT)的博士生Shayne Longpre是這項提案的主要作者,他說:“現在的情況有點像是西部荒野。”Longpre表示,一些所謂的破解者在社交媒體平台X上分享他們破解人工智慧安全措施的方法,讓模型和用戶面臨風險。其他的破解方法則只與一家公司分享,儘管它們可能影響很多人。他還說,一些缺陷因為害怕被禁止或面臨違反使用條款的法律責任而被保密。“顯然,這會造成恐懼和不確定性,”他說。
考慮到人工智慧技術的廣泛使用及其可能滲透到無數應用和服務中,人工智慧模型的安全性和穩定性非常重要。強大的模型需要進行壓力測試或紅隊測試,因為它們可能存在有害的偏見,並且某些輸入可能使它們突破安全防護,產生不愉快或危險的反應。這些反應可能包括鼓勵脆弱的用戶從事有害行為,或幫助壞人開發網絡、化學或生物武器。一些專家擔心,這些模型可能會協助網絡罪犯或恐怖分子,甚至在進步後可能會對人類造成威脅。
作者建議三項主要措施來改善第三方披露過程:採用標準化的人工智慧缺陷報告以簡化報告過程;大型人工智慧公司為披露缺陷的第三方研究人員提供基礎設施;以及開發一個系統,允許不同提供者之間共享缺陷。
這種方法借鑒了網絡安全領域,在那裡對外部研究人員披露漏洞有法律保護和既定規範。
HackerOne的首席法律和政策官Ilona Cohen說:“人工智慧研究人員並不總是知道如何披露缺陷,並且無法確定他們的善意披露不會使他們面臨法律風險。”HackerOne是一家組織漏洞獎勵的公司,也是這份報告的共同作者。
大型人工智慧公司目前在發布之前對人工智慧模型進行廣泛的安全測試。有些公司還與外部公司簽約進行進一步的檢查。“這些公司裡有足夠的人來解決所有通用人工智慧系統的問題嗎?這些系統被數億人使用,應用在我們從未想過的地方?”Longpre問道。一些人工智慧公司已經開始組織人工智慧漏洞獎勵活動。然而,Longpre表示,獨立研究人員如果自行檢查強大的人工智慧模型,可能會違反使用條款。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!