阿里巴巴研究人員推出 R1-Omni：將可驗證獎勵的強化學習應用於全方位多模態大型語言模型

從影片中辨識情感是一個充滿挑戰的任務。僅依賴視覺或音訊信號的模型，往往無法準確捕捉這兩種模式之間的微妙互動，導致情感內容的誤解。一個主要的困難是如何可靠地將視覺線索（例如面部表情或肢體語言）與音訊信號（如語調或語音重音）結合起來。許多現有的系統也缺乏解釋其決策過程的能力，這使得理解特定情感是如何被檢測到的變得困難。此外，這些模型有時會產生與輸入數據不直接相關的推理，或者可能未能充分利用重要的音訊細節。當模型面對不熟悉的情境時，這些問題變得更加明顯，強調了需要一種更穩健且可解釋的方法來進行多模態情感辨識。

介紹阿里巴巴研究人員的R1-Omni

在他們最近的研究中，阿里巴巴的研究人員提出了R1-Omni，這是一個應用可驗證獎勵的強化學習（RLVR）的多模態大型語言模型，專門用於情感辨識。R1-Omni基於已建立的人類Omni框架，並應用RLVR來微調模型，以處理影片和音訊數據。這個方法從冷啟動階段開始，模型使用來自可解釋的多模態情感推理（EMER）和手動標註數據集的組合數據進行預訓練。這個初步訓練幫助模型學習基本的推理技能，然後再用RLVR進行精細調整。通過將基於規則的獎勵機制整合到訓練過程中，R1-Omni不僅優化了準確的情感預測，還生成清晰且可解釋的解釋，描述視覺和聽覺信息如何互動。

技術洞察與方法的好處

R1-Omni設計的核心是整合可驗證獎勵的強化學習（RLVR）和群體相對政策優化（GRPO）。RLVR用可驗證的獎勵函數取代了主觀的人類反饋，該函數根據客觀標準評估模型的輸出。獎勵系統很簡單：如果模型的情感預測與真實情況相符，則獲得1的獎勵；否則獲得0。此外，格式獎勵確保輸出遵循特定結構，其中推理過程與最終預測之間有明確的標籤區分。

GRPO進一步精煉訓練過程，通過比較候選回應的組別，讓模型能夠識別和偏好那些推理更連貫且可解釋的回應。這個機制有助於減少不支持或不一致的推理出現，同時提高預測的整體質量。這些技術策略共同促進了推理的增強，更好地理解多模態輸入，並改善性能，特別是在模型在未見過的數據上進行測試時。

實驗結果與主要觀察

這項研究呈現了一組全面的實驗，將R1-Omni與幾個基準模型進行比較，包括原始的HumanOmni-0.5B和在EMER和MAFW-DFEW數據集上進行監督微調（SFT）的模型。在DFEW數據集上，R1-Omni達到了65.83%的未加權平均召回率（UAR）和56.27%的加權平均召回率（WAR）。這些分數明顯高於其他方法的結果。同樣，在MAFW數據集上，R1-Omni顯示出改進的性能，突顯其準確分類各種情感的能力。

R1-Omni的另一個優勢是能夠生成詳細且連貫的推理過程。研究中提供的可視化示例顯示，與其他模型相比，R1-Omni提供的解釋更能反映視覺和音訊線索如何影響預測。當在RAVDESS數據集上進行評估時，該模型也顯示出強大的泛化能力，該數據集包含專業演員和標準化語音。這表明該模型能夠適應不同類型的輸入數據，同時保持一致的性能水平。