虛擬角色與語言模型的背後故事集 – 伯克利人工智慧研究部落格

我們介紹「選集」(Anthology)，這是一種透過生成和利用具有豐富細節的自然背景故事，來引導大型語言模型 (LLMs) 形成具有代表性、一致性和多樣性的虛擬角色的方法。

大型語言模型 (LLMs) 在大量文本資料上訓練，這些資料是由數百萬、數十億位不同的人類作者共同創作的，這意味著什麼呢？

在《語言模型作為代理模型》(Language Models as Agent Models) 中，有力的證據顯示，最近的語言模型可以被視為代理模型：當提供文本背景時，LLMs 能夠生成符合該背景的代理特徵的條件文本。這表示，透過適當的引導，LLMs 可以被引導接近特定人類聲音的回應，而不是混合的聲音。如果這一能力得以實現，將對用戶研究和社會科學產生重大影響——經過調整的語言模型作為人類受試者的虛擬角色，可以作為成本效益高的初步研究，並支持人類研究中的最佳實踐，例如貝爾蒙特原則 (Belmont principles) 中的正義和善行。

在這項工作中，我們介紹「選集」，這是一種通過提供個體的豐富生活敘事作為模型的引導背景，來引導 LLMs 形成具有代表性、一致性和多樣性的虛擬角色的方法。

在這個過程中，我們還提出了從 LLMs 自身生成背景故事的方法，以有效地生成涵蓋廣泛人類人口統計的龐大數據集。透過將語言模型與自然背景故事結合，「選集」使 LLMs 能夠更真實地模擬個別人類樣本，這是通過匹配人類回應的分佈和一致性來衡量的。

我們的方法：選集

使用個體生活敘事引導語言模型生成

早期引導 LLMs 形成虛擬角色的方法的一個重要限制是無法可靠地接近個別人類樣本。之前的方法是用廣泛的人口統計信息來提示 LLMs，例如「我是一位來自加州的 25 歲年輕人。我的最高學歷低於高中」，這些基本上是從一組人口變數生成的文本。使用這些方法，我們只能在整體人口層面上接近人類樣本，而無法在個體層面上，這導致：

回應容易讓 LLMs 偏向刻板印象和/或原型描繪，因為它們僅根據人口變數進行引導（例如，種族和性別）

無法提供重要的興趣指標，例如協方差和統計顯著性，因為這類計算需要個別回應

選集通過使用豐富的背景故事來引導個別受試者的接近。透過這些背景故事，模型捕捉到個人身份的隱含和明確標記，包括人口特徵和對文化、社會經濟背景及生活哲學的自發參考。我們的方法涉及生成大量代表廣泛人口特徵的背景故事，這是通過對語言模型提出不受限制的開放式提示，例如「告訴我關於你自己的事。」然後，我們將每個背景故事引導的虛擬角色與現實世界的調查樣本進行匹配。

結果：更接近公共意見調查的估算

為了評估，我們比較了不同方法在接近三項皮尤研究中心 (Pew Research Center) ATP 調查的虛擬角色引導效果：第 34、92 和 99 波。

接近皮尤研究中心 ATP 調查的人類回應的結果。粗體和底線的結果表示最接近和第二接近人類的值。

作為接近人類樣本的虛擬角色的成功指標，我們考慮以下指標：

回應分佈的平均 Wasserstein 距離 (WD) 作為代表性的衡量

相關矩陣之間的 Frobenius 範數 (Fro.) 作為一致性的衡量

Cronbach α 作為內部一致性的附加衡量

在分析虛擬受試者之前，我們通過隨機將人類人口分成兩個相等大小的組來估算每個評估指標的下限，並計算這些子組之間的指標。我們從 100 次迭代中取平均值來代表下限估算。

我們持續觀察到「選集」在所有指標上均優於其他引導方法，無論是 Llama-3-70B 還是 Mixtral-8x22B。在比較兩種匹配方法時，貪婪匹配方法在所有波次的平均 Wasserstein 距離上表現較好。我們將匹配方法的差異歸因於最大權重匹配的一對一對應條件和可用虛擬用戶的數量有限。具體而言，在最大權重匹配中，分配給匹配虛擬受試者的權重不可避免地低於貪婪匹配，因為後者放寬了一對一對應的限制。這種差異可能導致匹配的人類和虛擬用戶之間的群體相似性低於貪婪匹配的對應結果。這些結果表明，我們的方法中生成的背景故事的豐富性引發了比基準更細緻的回應。

最後的想法

選集標誌著在引導 LLMs 虛擬角色方面的一個有前景的新方向，這可能會重塑我們進行用戶研究、公共意見調查和其他社會科學應用的方式，提供一種可擴展的，有時甚至是道德的替代傳統人類調查的方法。

然而，使用選集，與社會科學中其他語言模型的應用一樣，也帶來了幾個考量：儘管生成的背景故事有助於創建更具代表性的角色，但仍然存在延續偏見或侵犯隱私的風險，因此結果的使用和解釋應謹慎。

在未來的步驟中，我們預見我們的方法將受益於更廣泛和多樣的背景故事集，每個故事都代表個體的一致生活敘事。此外，這項工作的有價值擴展將是考慮自由形式的回應生成，使虛擬角色的模擬更自然、更細緻，超越結構化調查格式，例如多選題。最後，在行為研究中應用 LLMs 的一個令人興奮的新維度將涉及模擬長期效果，讓虛擬角色能夠建模並回顧隨時間變化的情況。

所有這些方向都提出了許多技術挑戰；如果您有興趣合作或想進一步討論我們的工作，請告訴我們！

了解更多我們的工作：鏈接到完整論文

@article{moon2024virtual,

  title={虛擬角色透過背景故事的選集},

  author={Moon, Suhong and Abdulhai, Marwa and Kang, Minwoo and Suh, Joseph and Soedarmadji, Widyadewi and Behar, Eran Kohen and Chan, David M},

  journal={arXiv preprint arXiv:2407.06576},

  year={2024}

}

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！