標籤: MVoT一個整合視覺與語言推理於複雜任務的多模態框架