控制語言與擴散模型透過傳輸激活

隨著大型生成模型的能力不斷提升，這些模型的使用也越來越普遍，這引發了對其可靠性、安全性和潛在濫用的擔憂。為了解決這些問題，最近的研究提出了一種方法，通過引導模型的激活來控制生成的內容，以有效地促進或防止某些概念或行為在生成的輸出中出現。

在這篇文章中，我們介紹了一種叫做激活傳輸 (AcT) 的通用框架，這個框架基於最佳傳輸理論，可以引導激活，並且擴展了許多之前的激活引導研究。AcT 不受特定模式的限制，能夠在幾乎不增加計算負擔的情況下，對模型行為進行細緻的控制，同時對模型的能力影響最小。

我們通過實驗展示了我們的方法的有效性和多樣性，特別是在大型語言模型 (LLMs) 和文本到圖像擴散模型 (T2Is) 中解決關鍵挑戰。在 LLMs 中，我們展示了 AcT 能夠有效減少有害內容、引入任意概念，並提高其真實性。在 T2Is 中，我們展示了 AcT 如何實現細緻的風格控制和概念否定。

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Archives