東京科技大學的研究人員開發出讓大型人工智慧模型選擇性「忘記」特定數據的方法
東京科技大學 (Tokyo University of Science, TUS) 的研究人員開發了一種方法,可以讓大型人工智慧 (AI) 模型選擇性地「忘記」特定類別的數據。
人工智慧的進步提供了能夠徹底改變各個領域的工具,從醫療保健到自動駕駛。然而,隨著技術的進步,複雜性和倫理考量也隨之增加。
大型預訓練的人工智慧系統,例如 OpenAI 的 ChatGPT 和 CLIP (對比語言-圖像預訓練),已經改變了人們對機器的期望。這些高度通用的模型能夠以一致的精確度處理各種任務,並廣泛應用於專業和個人用途。
然而,這種多功能性也帶來了高昂的代價。訓練和運行這些模型需要大量的能源和時間,這引發了可持續性的擔憂,並且需要比普通電腦更昂貴的尖端硬體。此外,通用性可能會在應用於特定任務時降低人工智慧模型的效率。
例如,副教授入江剛 (Go Irie) 解釋說:「在實際應用中,對各種物體類別的分類很少是必需的。以自動駕駛系統為例,只需要識別有限的物體類別,例如汽車、行人和交通標誌。」
「我們不需要識別食物、家具或動物種類。保留不需要識別的類別可能會降低整體分類的準確性,並導致計算資源的浪費和信息洩漏的風險。」
一個潛在的解決方案是訓練模型「忘記」冗餘或不必要的信息,簡化其過程,專注於所需的內容。雖然一些現有的方法已經滿足了這一需求,但它們往往假設用戶可以訪問模型的內部架構和參數。然而,許多時候,用戶無法獲得這樣的可見性。
由於商業和倫理限制,「黑箱」人工智慧系統更為普遍,這些系統隱藏了其內部機制,使得傳統的忘記技術變得不切實際。為了解決這一問題,研究團隊轉向了無導數優化(derivative-free optimisation)的方法,這種方法不依賴於模型內部的不可訪問工作原理。
通過忘記來推進
這項研究將在 2024 年的神經信息處理系統會議 (NeurIPS) 上發表,介紹了一種名為「黑箱忘記」的方法。
這個過程通過迭代回合修改輸入提示(提供給模型的文本指令),使人工智慧逐漸「忘記」某些類別。副教授入江與共同作者桑名裕介 (Yusuke Kuwana) 和後藤優太 (Yuta Goto) 以及 NEC 公司 (NEC Corporation) 的柴田隆 (Takashi Shibata) 共同合作進行這項研究。
在實驗中,研究人員針對 CLIP 這個具有圖像分類能力的視覺語言模型進行研究。他們開發的方法基於協方差矩陣適應進化策略 (Covariance Matrix Adaptation Evolution Strategy, CMA-ES),這是一種旨在逐步優化解決方案的進化算法。在這項研究中,CMA-ES 被用來評估和完善提供給 CLIP 的提示,最終抑制其對特定圖像類別的分類能力。
隨著項目的進展,挑戰也隨之而來。現有的優化技術在針對大量目標類別時難以擴展,這使得團隊設計出一種新的參數化策略,稱為「潛在上下文共享」(latent context sharing)。
這種方法將潛在上下文——由提示生成的信息表示——分解為更小、更易管理的部分。通過將某些元素分配給單個標記(單詞或字符),同時在多個標記中重用其他元素,他們顯著降低了問題的複雜性。這使得即使在大規模忘記應用中,這個過程也變得計算上可行。
通過在多個圖像分類數據集上的基準測試,研究人員驗證了黑箱忘記的有效性——成功實現了讓 CLIP「忘記」約 40% 目標類別的目標,而無需直接訪問人工智慧模型的內部架構。
這項研究標誌著首次成功在黑箱視覺語言模型中引入選擇性忘記,顯示出良好的結果。
幫助人工智慧模型忘記數據的好處
除了技術上的創新,這項發明在需要任務特定精確度的現實應用中具有重要潛力。
簡化專門任務的模型可以使其運行更快、更高效,並能在較低性能的設備上運行,促進人工智慧在以前被認為不可行的領域的應用。
另一個關鍵用途是在圖像生成中,忘記整個視覺上下文類別可以防止模型無意中創造出不當或有害的內容,例如冒犯性材料或錯誤信息。
或許最重要的是,這種方法解決了人工智慧面臨的最大倫理難題之一:隱私。
大型人工智慧模型通常在大量數據集上進行訓練,這些數據集可能無意中包含敏感或過時的信息。要求刪除這些數據,尤其是在倡導「被遺忘權」的法律背景下,面臨重大挑戰。
重新訓練整個模型以排除問題數據既耗時又昂貴,但不解決這個問題的風險可能會產生深遠的後果。
副教授入江指出:「重新訓練大型模型消耗了大量的能源。『選擇性忘記』或所謂的機器非學習(machine unlearning)可能為這個問題提供了一個高效的解決方案。」
這些以隱私為重點的應用在醫療和金融等高風險行業中特別相關,因為敏感數據對業務運作至關重要。
隨著全球推進人工智慧的競賽加速,東京科技大學的黑箱忘記方法為未來指明了一條重要的道路——不僅使技術更具適應性和效率,還為用戶提供了重要的保障。
雖然濫用的潛力仍然存在,但像選擇性忘記這樣的方法顯示出研究人員正在積極應對倫理和實際挑戰。
想了解更多關於人工智慧和大數據的行業領導者的資訊嗎?請查看即將在阿姆斯特丹、加州和倫敦舉行的 AI & 大數據博覽會。這是一個綜合性活動,與其他領先活動如智能自動化會議、BlockX、數字轉型周和網絡安全與雲博覽會共同舉行。
探索其他即將舉行的企業技術活動和由 TechForge 提供的網絡研討會。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!