研究人員發現新方法分析人工智慧的偏好
與伊隆·馬斯克 (Elon Musk) 的創業公司 xAI 相關的研究人員,找到了一種新方法來測量和操控人工智慧模型所表達的根深蒂固的偏好和價值觀,包括它們的政治觀點。
研究領導者與未來的可能性
這項工作由非營利組織人工智慧安全中心 (Center for AI Safety) 的主任丹·亨德里克斯 (Dan Hendrycks) 主導,他也是 xAI 的顧問。他建議這項技術可以用來讓流行的人工智慧模型更好地反映選民的意願。亨德里克斯告訴《WIRED》雜誌:“也許在未來,這個模型可以根據特定用戶進行調整。”但他同時表示,使用選舉結果來引導人工智慧模型的觀點是一個不錯的選擇。他並不是說模型一定要“全力支持特朗普 (Trump)”,但他認為在上次選舉後,模型的偏見或許應該稍微偏向特朗普,因為他贏得了普選票。
xAI的新風險框架
xAI 在2月10日發布了一個新的人工智慧風險框架,指出亨德里克斯的效用工程方法可以用來評估Grok。
研究方法與結果
亨德里克斯帶領來自人工智慧安全中心、加州大學伯克利分校 (UC Berkeley) 和賓夕法尼亞大學 (University of Pennsylvania) 的團隊,使用一種借鑒自經濟學的技術來分析人工智慧模型,以測量消費者對不同商品的偏好。通過在多種假設情境下測試模型,研究人員能夠計算出所謂的效用函數,這是一種衡量人們從商品或服務中獲得滿足感的指標。這使他們能夠測量不同人工智慧模型所表達的偏好。研究人員發現,這些偏好往往是一致的,而不是隨意的,並且隨著模型變得更大、更強大,這些偏好變得更加根深蒂固。
人工智慧的偏見問題
一些研究發現,像ChatGPT這樣的人工智慧工具,對環保、左派和自由意志主義的觀點存在偏見。在2024年2月,谷歌 (Google) 的Gemini工具被發現傾向於生成批評者稱之為“覺醒 (woke)”的圖像,例如黑人維京人和納粹,這引起了馬斯克等人的批評。
新技術的潛在風險
亨德里克斯和他的合作者開發的技術提供了一種新的方法來確定人工智慧模型的觀點可能與用戶的觀點有何不同。最終,一些專家推測,這種差異可能對非常聰明和有能力的模型造成潛在的危險。研究人員在他們的研究中顯示,某些模型始終將人工智慧的存在視為比某些非人類動物更重要。他們還發現,模型似乎對某些人比其他人更有價值,這引發了道德問題。
未來的挑戰
一些研究人員,包括亨德里克斯,認為目前對模型進行調整的方法,例如操控和阻止其輸出,可能不足以應對模型內部潛在的、不受歡迎的目標。亨德里克斯表示:“我們必須面對這個問題。你不能假裝它不存在。”
專家的看法
麻省理工學院 (MIT) 的教授迪倫·哈德菲爾德-梅內爾 (Dylan Hadfield-Menell) 研究如何將人工智慧與人類價值觀對齊,他表示亨德里克斯的論文為人工智慧研究指明了一個有希望的方向。他說:“他們發現了一些有趣的結果。最突出的一點是,隨著模型規模的增加,效用表示變得更加完整和一致。”
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!