來自東京科技大學 (Tokyo University of Science, TUS) 的研究人員開發了一種方法,可以讓大型人工智慧 (AI) 模型選擇性地「忘記」特定類別的數據。
人工智慧的進步提供了能夠徹底改變各個領域的工具,從醫療保健到自動駕駛。然而,隨著技術的進步,複雜性和道德考量也隨之增加。
大型預訓練 AI 系統的範式,例如 OpenAI 的 ChatGPT 和 CLIP (對比語言-圖像預訓練),重新塑造了人們對機器的期望。這些高度通用的模型能夠以一致的精確度處理各種任務,已被廣泛應用於專業和個人用途。
然而,這種多功能性是有代價的。訓練和運行這些模型需要大量的能源和時間,這引發了可持續性問題,並且需要比普通電腦更昂貴的尖端硬體。更糟的是,通用型的傾向可能會降低 AI 模型在特定任務上的效率。
例如,研究負責人伊里剛 (Go Irie) 副教授解釋說:「在實際應用中,對各種物體類別的分類很少是必要的。比如,在自動駕駛系統中,只需要識別有限的物體類別,如汽車、行人和交通標誌。」
「我們不需要識別食物、家具或動物物種。保留不需要識別的類別可能會降低整體分類的準確性,並導致運行上的劣勢,例如浪費計算資源和信息洩露的風險。」
一個潛在的解決方案是訓練模型「忘記」冗餘或不必要的信息,簡化它們的處理過程,專注於所需的內容。雖然一些現有的方法已經滿足這一需求,但它們通常假設用戶可以訪問模型的內部架構和參數。然而,實際上,用戶往往無法獲得這種可見性。
由於商業和道德限制,「黑箱」AI 系統更為常見,這些系統隱藏了其內部機制,使得傳統的忘記技術變得不切實際。為了填補這一空白,研究團隊轉向無導數優化——這是一種不依賴於模型內部運作的技術。
通過忘記來進步
這項研究將在2024年神經信息處理系統會議 (NeurIPS) 上發表,介紹了一種稱為「黑箱忘記」的方法。
這個過程通過迭代回合修改輸入提示(輸入模型的文本指令),使 AI 逐步「忘記」某些類別。伊里副教授與共同作者桑名裕介 (Yusuke Kuwana) 和後藤優太 (Yuta Goto) 以及 NEC 公司 (NEC Corporation) 的柴田隆 (Takashi Shibata) 博士合作進行了這項工作。
在實驗中,研究人員針對 CLIP 進行了研究,這是一種具有圖像分類能力的視覺語言模型。他們開發的方法基於協方差矩陣自適應進化策略 (Covariance Matrix Adaptation Evolution Strategy, CMA-ES),這是一種設計用來逐步優化解決方案的進化算法。在這項研究中,CMA-ES 被用來評估和改進提供給 CLIP 的提示,最終抑制其對特定圖像類別的分類能力。
隨著項目的推進,挑戰也隨之而來。現有的優化技術在針對較大數量的目標類別時難以擴展,這使得團隊設計出一種新的參數化策略,稱為「潛在上下文共享」。
這種方法將潛在上下文——由提示生成的信息表示——分解為更小、更易於管理的部分。通過將某些元素分配給單個標記(單詞或字符),同時在多個標記中重用其他元素,他們顯著降低了問題的複雜性。關鍵是,這使得即使在大規模忘記應用中,這個過程也變得計算上可行。
通過對多個圖像分類數據集的基準測試,研究人員驗證了黑箱忘記的有效性——成功使 CLIP「忘記」約40%的目標類別,而無需直接訪問 AI 模型的內部架構。
這項研究標誌著首次成功地在黑箱視覺語言模型中引入選擇性忘記,顯示出良好的結果。
幫助 AI 模型忘記數據的好處
除了技術上的創新,這項發明在需要特定任務精確度的現實應用中具有重要潛力。
簡化專門任務的模型可以使它們更快、更節省資源,並能在較弱的設備上運行——加速 AI 在之前被認為不可行的領域的應用。
另一個關鍵用途是在圖像生成中,忘記整個視覺上下文類別可以防止模型無意中創造出不當或有害的內容,例如冒犯性材料或錯誤信息。
也許最重要的是,這種方法解決了 AI 最大的道德難題之一:隱私。
大型 AI 模型通常在大量數據集上進行訓練,這些數據集可能無意中包含敏感或過時的信息。根據法律要求刪除這些數據,特別是在提倡「被遺忘權」的背景下,面臨重大挑戰。
重新訓練整個模型以排除問題數據既耗時又昂貴,但不解決這個問題的風險可能會產生深遠的後果。
伊里副教授指出:「重新訓練大型模型消耗巨大的能源。『選擇性忘記』,或所謂的機器非學習,可能為這個問題提供高效的解決方案。」
這些以隱私為重點的應用在醫療和金融等高風險行業中特別相關,因為敏感數據是運營的核心。
隨著全球推進 AI 的競賽加速,東京科技大學的黑箱忘記方法為未來指明了一條重要的道路——不僅使技術更具適應性和效率,還為用戶增添了重要的保障。
雖然濫用的潛力仍然存在,但像選擇性忘記這樣的方法表明,研究人員正在積極應對道德和實際挑戰。
參考:為什麼 QwQ-32B-Preview 是值得關注的推理 AI
想了解更多來自行業領袖的 AI 和大數據資訊嗎?請查看即將在阿姆斯特丹、加州和倫敦舉行的 AI & 大數據博覽會。這是一個綜合性活動,與其他領先活動如智能自動化會議、BlockX、數位轉型週和網絡安全與雲博覽會同時舉行。
在這裡探索其他即將舉行的企業技術活動和網絡研討會。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!