InternLM-XComposer2.5-OmniLive：一個全面的多模態人工智慧系統，用於長期串流視頻和音頻互動

人工智慧（AI）系統正在進步，努力模仿人類的思考方式，讓它們能夠與不斷變化的環境進行即時互動。從事AI研究的科學家們希望開發出能夠無縫整合多種數據形式（例如音頻、視頻和文本輸入）的系統。這些系統可以應用於虛擬助手、適應性環境和持續的即時分析，模仿人類的感知、推理和記憶。最近，多模態大型語言模型（MLLMs）的發展使得在開放世界理解和即時處理方面取得了重大進展。然而，仍然存在挑戰，需要解決如何同時感知、推理和記憶，而不必在這些任務之間來回切換的問題。

大多數主流模型需要改進，因為它們在儲存大量歷史數據時效率不高，並且缺乏同時處理的能力。許多MLLMs使用的序列到序列架構，讓感知和推理之間的切換變得困難，就像人無法在感知周圍環境的同時思考一樣。此外，依賴於擴展的上下文窗口來儲存歷史數據，對於長期應用來說可能不夠可持續，因為多模態數據（如視頻和音頻流）在幾小時內就會產生大量的標記，甚至幾天也是如此。這種低效率限制了這些模型的擴展性和在現實世界中持續互動的實用性。

現有的方法使用各種技術來處理多模態輸入，例如稀疏取樣、時間池化、壓縮視頻標記和記憶庫。雖然這些策略在某些領域提供了改進，但仍然無法達到真正的人類思考水平。例如，像Mini-Omni和VideoLLM-Online這樣的模型試圖縮小文本和視頻理解之間的差距，但它們受到依賴於序列處理和有限記憶整合的限制。此外，當前系統以笨重的、依賴上下文的格式儲存數據，缺乏靈活性和擴展性，無法支持持續的互動。這些缺點突顯了需要一種創新的方法，將感知、推理和記憶分解為不同但協作的模塊。

來自上海人工智慧實驗室（Shanghai Artificial Intelligence Laboratory）、香港中文大學（Chinese University of Hong Kong）、復旦大學（Fudan University）、中國科學技術大學（University of Science and Technology of China）、清華大學（Tsinghua University）、北京航空航天大學（Beihang University）和商湯科技集團（SenseTime Group）的研究人員推出了InternLM-XComposer2.5-OmniLive（IXC2.5-OL），這是一個綜合性的AI框架，旨在實現即時多模態互動，以應對這些挑戰。這個系統整合了尖端技術，模仿人類的思考方式。IXC2.5-OL框架由三個關鍵模塊組成：

流媒體感知模塊

多模態長期記憶模塊

推理模塊

這些組件協同工作，處理多模態數據流，壓縮和檢索記憶，並有效且準確地回應查詢。這種模塊化的方法受到人類大腦專門功能的啟發，確保了在不斷變化的環境中的擴展性和適應性。

流媒體感知模塊處理即時音頻和視頻。使用像Whisper這樣的先進模型進行音頻編碼，和OpenAI的CLIP-L/14進行視頻感知，這個模塊從輸入流中捕捉高維特徵。它識別並編碼關鍵信息，例如人類語音和環境聲音，並將其儲存到記憶中。同時，多模態長期記憶模塊將短期記憶壓縮為有效的長期表示，整合這些信息以提高檢索的準確性並減少記憶成本。例如，它可以將數百萬個視頻幀壓縮成緊湊的記憶單元，顯著提高系統的效率。推理模塊則配備先進的算法，從記憶模塊中檢索相關信息，以執行複雜任務並回答用戶查詢。這使得IXC2.5-OL系統能夠同時感知、思考和記憶，克服了傳統模型的限制。

IXC2.5-OL已在多個基準測試中進行評估。在音頻處理方面，該系統在Wenetspeech的中文測試網上達到了7.8%的字錯誤率（WER），在測試會議上達到了8.4%，超越了VITA和Mini-Omni等競爭對手。在英語基準測試如LibriSpeech中，它在乾淨數據集上的WER為2.5%，在噪音環境中的WER為9.2%。在視頻處理方面，IXC2.5-OL在主題推理和異常識別方面表現優異，在MLVU上達到了66.2%的平均分數，在StreamingBench上達到了73.79%的最先進分數。該系統同時處理多模態數據流，確保了卓越的即時互動。

這項研究的主要收穫包括：

系統的架構模仿人類大腦，將感知、記憶和推理分為不同的模塊，確保了擴展性和效率。

在音頻識別基準測試（如Wenetspeech和LibriSpeech）和視頻任務（如異常檢測和行為推理）中取得了最先進的結果。

系統通過將短期記憶壓縮為長期格式，能有效處理數以百萬計的標記，減少計算負擔。

所有代碼、模型和推理框架均可供公眾使用。

系統同時處理、儲存和檢索多模態數據流的能力，允許在不斷變化的環境中實現無縫的適應性互動。

總之，InternLM-XComposer2.5-OmniLive框架正在克服長期以來在同時感知、推理和記憶方面的限制。通過利用受人類思考啟發的模塊化設計，該系統實現了卓越的效率和適應性。在Wenetspeech和StreamingBench等基準測試中取得了最先進的表現，顯示出卓越的音頻識別、視頻理解和記憶整合能力。因此，InternLM-XComposer2.5-OmniLive提供了無與倫比的即時多模態互動，具備可擴展的人類思考能力。

查看論文、GitHub頁面和Hugging Face頁面。這項研究的所有功勞都歸於這個項目的研究人員。此外，別忘了在Twitter上關注我們，加入我們的Telegram頻道和LinkedIn小組。還有，別忘了加入我們的60k+ ML SubReddit。

🚨 熱門消息：LG AI研究發布EXAONE 3.5：三個開源雙語前沿AI模型，提供無與倫比的指令跟隨和長期上下文理解，為生成AI卓越的全球領導地位奠定基礎……

新聞來源

本文由 AI 台灣使用 AI 編撰，內容僅供參考，請自行進行事實查核。加入 AI TAIWAN Google News，隨時掌握最新 AI 資訊！

Tags: InternLMXComposer2.5OmniLive一個全面的多模態人工智慧系統用於長期串流視頻和音頻互動