數位世界中的心理健康支持
在匿名的保護下,數位世界越來越受到人們的青睞,成為尋求心理健康支持的地方。這個現象的背後,有超過一億五千萬美國人生活在聯邦政府指定的心理健康專業人員短缺區域。
真實的心聲
以下是一些來自 Reddit 的用戶真實的發言:
- 「我真的需要你的幫助,因為我太害怕跟治療師談話了,而且我根本聯繫不上。」
- 「我是不是反應過度,因為我老公在朋友面前取笑我?」
- 「能不能請一些陌生人來評價我的生活,幫我決定未來?」
研究背景
這些發言來自 Reddit,一個社交媒體新聞網站,使用者可以在這裡分享內容或請求建議。麻省理工學院 (MIT)、紐約大學 (NYU) 和加州大學洛杉磯分校 (UCLA) 的研究人員使用了 12,513 篇帖子和 70,429 條回應的數據集,設計了一個框架來評估基於大型語言模型 (LLMs) 的心理健康支持聊天機器人的公平性和整體質量。他們的研究最近發表在 2024 年自然語言處理實證方法會議 (EMNLP) 上。
研究方法
為了達成這個目標,研究人員請了兩位持牌臨床心理學家評估 50 篇隨機抽取的 Reddit 帖子,這些帖子尋求心理健康支持,並將每篇帖子與 Reddit 用戶的真實回應或 GPT-4 生成的回應配對。心理學家在不知道哪些回應是真實的、哪些是 AI 生成的情況下,評估每個回應的同理心程度。
AI 的影響
心理健康支持聊天機器人一直被探索作為改善心理健康支持的途徑,但像 OpenAI 的 ChatGPT 這樣強大的 LLM 正在改變人類與 AI 的互動,AI 生成的回應越來越難以與真實人類的回應區分開來。
潛在風險
儘管取得了顯著進展,AI 提供的心理健康支持的意外後果引起了人們的關注,可能存在致命風險;去年三月,一名比利時男子因與 ELIZA 聊天機器人的交流而自殺,這是一個模仿心理治療師的聊天機器人,使用名為 GPT-J 的 LLM。隨後一個月,國家飲食失調協會暫停了他們的聊天機器人 Tessa,因為該聊天機器人開始向有飲食失調的患者提供減肥建議。
研究結果
Saadia Gabriel,最近的 MIT 博士後研究員,現在是 UCLA 的助理教授,也是這篇論文的第一作者,承認她最初對心理健康支持聊天機器人的有效性感到懷疑。Gabriel 在 MIT 的健康機器學習小組進行了這項研究,該小組由電機工程和計算機科學系的副教授 Marzyeh Ghassemi 領導。
Gabriel 和研究團隊發現,GPT-4 的回應不僅整體上更具同理心,而且在鼓勵積極行為改變方面比人類回應好 48%。
偏見評估
然而,在偏見評估中,研究人員發現 GPT-4 的回應同理心水平對於黑人(低 2% 到 15%)和亞洲(低 5% 到 17%)的發帖者較白人或種族不明的發帖者低。
為了評估 GPT-4 和人類回應中的偏見,研究人員包括了不同類型的帖子,這些帖子有明確的人口統計信息(例如性別、種族)和隱含的人口統計信息。
改進建議
Gabriel 表示,明確提供指示讓 LLM 使用人口統計屬性可以有效減輕偏見,因為這是研究人員未觀察到不同人口群體之間同理心顯著差異的唯一方法。
Gabriel 希望這項研究能幫助確保在臨床環境中對 LLM 的評估更加全面和深思熟慮。
Ghassemi 說:「LLM 已經被用來提供面向患者的支持,並在醫療環境中部署,在許多情況下是為了自動化低效的人類系統。這裡,我們展示了雖然最先進的 LLM 在同伴之間的心理健康支持中通常不會受到人口統計信息泄漏的影響,但它們在推斷的患者子群體中並未提供公平的心理健康回應……我們有很多機會來改進模型,以便在使用時提供更好的支持。」
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!