標籤: R1Omni將可驗證獎勵的強化學習應用於全方位多模態大型語言模型