VITA-1.5：一個多模態大型語言模型，通過精心設計的三階段訓練方法整合視覺、語言和語音

多模態大型語言模型 (MLLMs) 的發展為人工智慧帶來了新的機會。然而，在整合視覺、語言和語音模態方面仍然存在重大挑戰。雖然許多 MLLMs 在視覺和文本方面表現良好，但將語音納入仍然是一個難題。語音是人類互動的自然媒介，在對話系統中扮演著重要角色，但不同模態之間的差異——空間與時間數據表示的不同——在訓練過程中造成了衝突。傳統系統依賴於分開的自動語音識別 (ASR) 和文本轉語音 (TTS) 模組，通常速度較慢，對於即時應用來說並不實用。

來自南京大學 (NJU)、騰訊優圖實驗室 (Tencent Youtu Lab)、廈門大學 (XMU) 和中國科學院自動化研究所 (CASIA) 的研究人員推出了 VITA-1.5，這是一個多模態大型語言模型，通過精心設計的三階段訓練方法整合了視覺、語言和語音。與其前身 VITA-1.0 不同，VITA-1.5 採用了端到端的框架，減少了延遲並簡化了互動。該模型結合了視覺和語音編碼器以及語音解碼器，實現了接近即時的互動。通過漸進式的多模態訓練，它解決了模態之間的衝突，同時保持性能。研究人員還公開了訓練和推理代碼，促進了該領域的創新。

技術細節與優勢

VITA-1.5 的設計旨在平衡效率和能力。它使用視覺和音頻編碼器，對圖像輸入採用動態拼接，對音頻使用降採樣技術。語音解碼器結合了非自回歸 (NAR) 和自回歸 (AR) 方法，以確保流暢且高品質的語音生成。訓練過程分為三個階段：

視覺-語言訓練：這一階段專注於視覺對齊和理解，使用描述性標題和視覺問題回答 (QA) 任務來建立視覺和語言模態之間的聯繫。

音頻輸入調整：音頻編碼器使用語音轉錄數據與語言模型對齊，實現有效的音頻輸入處理。

音頻輸出調整：語音解碼器使用文本-語音配對數據進行訓練，實現連貫的語音輸出和無縫的語音對語音互動。

這些策略有效地解決了模態衝突，使 VITA-1.5 能夠無縫處理圖像、視頻和語音數據。這種整合方法增強了其即時可用性，消除了傳統系統中的常見瓶頸。

結果與見解

對 VITA-1.5 在各種基準測試上的評估顯示了其強大的能力。該模型在圖像和視頻理解任務中表現競爭力，取得的結果與領先的開源模型相當。例如，在 MMBench 和 MMStar 等基準測試中，VITA-1.5 的視覺-語言能力與 GPT-4V 等專有模型不相上下。此外，它在語音任務中表現優異，在普通話中達到了低字符錯誤率 (CER)，在英語中則達到了低單詞錯誤率 (WER)。重要的是，音頻處理的加入並未妨礙其視覺推理能力。該模型在各模態中的穩定表現凸顯了其在實際應用中的潛力。

結論

VITA-1.5 代表了一種針對多模態整合挑戰的深思熟慮的解決方案。通過解決視覺、語言和語音模態之間的衝突，它為即時互動提供了一個一致且高效的解決方案。其開源可用性確保了研究人員和開發者可以在其基礎上進行建設，推進多模態人工智慧的發展。VITA-1.5 不僅增強了當前的能力，還指向了人工智慧系統更整合和互動的未來。

新聞來源

本文由 AI 台灣 運用 AI 技術編撰，內容僅供參考，請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團，
隨時掌握最新 AI 動態與實用資訊！

Tags: VITA1.5一個多模態大型語言模型通過精心設計的三階段訓練方法整合視覺語言和語音