多模態大型語言模型 (MLLMs) 的發展為人工智慧帶來了新的機會。然而,在整合視覺、語言和語音模態方面仍然存在重大挑戰。雖然許多 MLLMs 在視覺和文本方面表現良好,但將語音納入仍然是一個難題。語音是人類互動的自然媒介,在對話系統中扮演著重要角色,但不同模態之間的差異——空間與時間數據表示的不同——在訓練過程中造成了衝突。傳統系統依賴於分開的自動語音識別 (ASR) 和文本轉語音 (TTS) 模組,通常速度較慢,對於即時應用來說並不實用。
來自南京大學 (NJU)、騰訊優圖實驗室 (Tencent Youtu Lab)、廈門大學 (XMU) 和中國科學院自動化研究所 (CASIA) 的研究人員推出了 VITA-1.5,這是一個多模態大型語言模型,通過精心設計的三階段訓練方法整合了視覺、語言和語音。與其前身 VITA-1.0 不同,VITA-1.5 採用了端到端的框架,減少了延遲並簡化了互動。該模型結合了視覺和語音編碼器以及語音解碼器,實現了接近即時的互動。通過漸進式的多模態訓練,它解決了模態之間的衝突,同時保持性能。研究人員還公開了訓練和推理代碼,促進了該領域的創新。
技術細節與優勢
VITA-1.5 的設計旨在平衡效率和能力。它使用視覺和音頻編碼器,對圖像輸入採用動態拼接,對音頻使用降採樣技術。語音解碼器結合了非自回歸 (NAR) 和自回歸 (AR) 方法,以確保流暢且高品質的語音生成。訓練過程分為三個階段:
- 視覺-語言訓練:這一階段專注於視覺對齊和理解,使用描述性標題和視覺問題回答 (QA) 任務來建立視覺和語言模態之間的聯繫。
- 音頻輸入調整:音頻編碼器使用語音轉錄數據與語言模型對齊,實現有效的音頻輸入處理。
- 音頻輸出調整:語音解碼器使用文本-語音配對數據進行訓練,實現連貫的語音輸出和無縫的語音對語音互動。
這些策略有效地解決了模態衝突,使 VITA-1.5 能夠無縫處理圖像、視頻和語音數據。這種整合方法增強了其即時可用性,消除了傳統系統中的常見瓶頸。
結果與見解
對 VITA-1.5 在各種基準測試上的評估顯示了其強大的能力。該模型在圖像和視頻理解任務中表現競爭力,取得的結果與領先的開源模型相當。例如,在 MMBench 和 MMStar 等基準測試中,VITA-1.5 的視覺-語言能力與 GPT-4V 等專有模型不相上下。此外,它在語音任務中表現優異,在普通話中達到了低字符錯誤率 (CER),在英語中則達到了低單詞錯誤率 (WER)。重要的是,音頻處理的加入並未妨礙其視覺推理能力。該模型在各模態中的穩定表現凸顯了其在實際應用中的潛力。
結論
VITA-1.5 代表了一種針對多模態整合挑戰的深思熟慮的解決方案。通過解決視覺、語言和語音模態之間的衝突,它為即時互動提供了一個一致且高效的解決方案。其開源可用性確保了研究人員和開發者可以在其基礎上進行建設,推進多模態人工智慧的發展。VITA-1.5 不僅增強了當前的能力,還指向了人工智慧系統更整合和互動的未來。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!