標籤: VITA1.5一個多模態大型語言模型通過精心設計的三階段訓練方法整合視覺語言和語音