從影片中辨識情感是一個充滿挑戰的任務。僅依賴視覺或音訊信號的模型,往往無法準確捕捉這兩種模式之間的微妙互動,導致情感內容的誤解。一個主要的困難是如何可靠地將視覺線索(例如面部表情或肢體語言)與音訊信號(如語調或語音重音)結合起來。許多現有的系統也缺乏解釋其決策過程的能力,這使得理解特定情感是如何被檢測到的變得困難。此外,這些模型有時會產生與輸入數據不直接相關的推理,或者可能未能充分利用重要的音訊細節。當模型面對不熟悉的情境時,這些問題變得更加明顯,強調了需要一種更穩健且可解釋的方法來進行多模態情感辨識。
介紹阿里巴巴研究人員的R1-Omni
在他們最近的研究中,阿里巴巴的研究人員提出了R1-Omni,這是一個應用可驗證獎勵的強化學習(RLVR)的多模態大型語言模型,專門用於情感辨識。R1-Omni基於已建立的人類Omni框架,並應用RLVR來微調模型,以處理影片和音訊數據。這個方法從冷啟動階段開始,模型使用來自可解釋的多模態情感推理(EMER)和手動標註數據集的組合數據進行預訓練。這個初步訓練幫助模型學習基本的推理技能,然後再用RLVR進行精細調整。通過將基於規則的獎勵機制整合到訓練過程中,R1-Omni不僅優化了準確的情感預測,還生成清晰且可解釋的解釋,描述視覺和聽覺信息如何互動。
技術洞察與方法的好處
R1-Omni設計的核心是整合可驗證獎勵的強化學習(RLVR)和群體相對政策優化(GRPO)。RLVR用可驗證的獎勵函數取代了主觀的人類反饋,該函數根據客觀標準評估模型的輸出。獎勵系統很簡單:如果模型的情感預測與真實情況相符,則獲得1的獎勵;否則獲得0。此外,格式獎勵確保輸出遵循特定結構,其中推理過程與最終預測之間有明確的標籤區分。
GRPO進一步精煉訓練過程,通過比較候選回應的組別,讓模型能夠識別和偏好那些推理更連貫且可解釋的回應。這個機制有助於減少不支持或不一致的推理出現,同時提高預測的整體質量。這些技術策略共同促進了推理的增強,更好地理解多模態輸入,並改善性能,特別是在模型在未見過的數據上進行測試時。
實驗結果與主要觀察
這項研究呈現了一組全面的實驗,將R1-Omni與幾個基準模型進行比較,包括原始的HumanOmni-0.5B和在EMER和MAFW-DFEW數據集上進行監督微調(SFT)的模型。在DFEW數據集上,R1-Omni達到了65.83%的未加權平均召回率(UAR)和56.27%的加權平均召回率(WAR)。這些分數明顯高於其他方法的結果。同樣,在MAFW數據集上,R1-Omni顯示出改進的性能,突顯其準確分類各種情感的能力。
R1-Omni的另一個優勢是能夠生成詳細且連貫的推理過程。研究中提供的可視化示例顯示,與其他模型相比,R1-Omni提供的解釋更能反映視覺和音訊線索如何影響預測。當在RAVDESS數據集上進行評估時,該模型也顯示出強大的泛化能力,該數據集包含專業演員和標準化語音。這表明該模型能夠適應不同類型的輸入數據,同時保持一致的性能水平。
總結與未來方向
總結來說,R1-Omni代表了一種對多模態情感辨識挑戰的深思熟慮的解決方案。通過利用可驗證獎勵的強化學習,該模型不僅能更準確地預測情感,還能清楚地表達其決策背後的推理。這種方法有助於解決該領域的一些長期問題,例如多模態數據的整合和模型輸出的可解釋性。
儘管取得了進展,R1-Omni仍面臨挑戰。例如,改善字幕識別和減少不支持推理的情況仍然是進一步探索的領域。未來的研究可能會專注於增強基礎模型,精煉音訊線索的整合,並加深模型的推理能力,以更好地模仿人類情感理解的微妙之處。
總體而言,R1-Omni提供了一個有前景的框架,平衡了技術嚴謹性與可解釋性的需求,為開發更透明和有效的多模態情感辨識系統提供了有價值的見解。
查看論文和GitHub頁面。所有研究的功勞都歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的80k+機器學習SubReddit。
🚨 介紹Parlant:一個以LLM為首的對話式人工智慧框架,旨在為開發人員提供對其人工智慧客服代理的控制和精確度,利用行為準則和運行時監督。🔧 🎛️ 它使用易於使用的CLI📟和Python及TypeScript的原生客戶端SDK📦運行。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!