評估預訓練與提示調整語言模型之間的性別偏見轉移

平等貢獻者

大型語言模型（LLMs）越來越多地被調整，以便在現實世界的決策系統中使用。之前有許多研究探討了偏見轉移假說（BTH），研究了微調適應策略對模型公平性的影響，發現預訓練的掩碼語言模型的公平性對於使用微調適應的模型公平性影響有限。在這項研究中，我們將BTH的研究擴展到因果模型，並使用提示適應，因為提示是一種可接觸且計算效率高的方式來在現實系統中部署模型。與之前的研究不同，我們發現預訓練的Mistral、Falcon和Llama模型中的內在偏見與這些模型在零樣本和少樣本提示下的偏見有很強的相關性（rho >= 0.94），這是通過代名詞共指解析任務來進行的。此外，我們發現，即使在特定提示LLMs以展現公平或偏見行為的情況下，偏見轉移仍然保持強相關（rho >= 0.92），而且少樣本的長度和刻板印象的組成也會有所變化（rho >= 0.97）。我們的研究結果強調了確保預訓練LLMs公平性的重要性，特別是在它們後來通過提示適應執行下游任務時。

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Tags: 評估預訓練與提示調整語言模型之間的性別偏見轉移