大型語言模型(LLMs)已改變了人工智慧應用,驅動語言翻譯、虛擬助手和代碼生成等任務。這些模型依賴於資源密集型基礎設施,特別是具有高帶寬記憶體的GPU,以管理其計算需求。然而,為眾多用戶同時提供高質量服務帶來了重大挑戰。有效分配這些有限資源對於滿足時間敏感指標的服務水平目標(SLOs)至關重要,確保系統能夠應對更多用戶而不損害性能。
在LLM服務系統中,一個持續存在的問題是實現公平的資源分配,同時保持效率。現有系統往往優先考慮吞吐量,忽視公平性要求,例如在用戶之間平衡延遲。預先調度機制通過動態調整請求的優先級來解決這個問題。然而,這些機制引入了上下文切換的開銷,如GPU閒置和低效率的I/O利用,從而降低了關鍵性能指標,如首次標記時間(TTFT)和標記之間的時間(TBT)。例如,在高壓場景中,由於預先調度導致的停頓時間可能達到P99延遲的59.9%,從而顯著下降用戶體驗。
目前的解決方案,如vLLM,依賴於基於分頁的記憶體管理來解決GPU記憶體的限制,通過在GPU和CPU記憶體之間交換數據。雖然這些方法改善了吞吐量,但仍面臨限制。碎片化的記憶體分配、低I/O帶寬利用率以及在多輪對話中冗餘的數據傳輸等問題依然存在,削弱了它們的有效性。例如,vLLM的固定區塊大小為16個標記,導致顆粒度不佳,降低了PCIe帶寬效率並增加了預先上下文切換期間的延遲。
來自普渡大學、上海齊智研究院和清華大學的研究人員開發了FastSwitch,這是一個具有公平性意識的LLM服務系統,旨在解決上下文切換中的低效問題。FastSwitch引入了三個核心優化:動態區塊組管理器、多線程交換管理器和KV快取重用機制。這些創新協同作用,改善I/O利用,減少GPU閒置,並最小化冗餘數據傳輸。該系統的設計基於vLLM,但專注於粗粒度的記憶體分配和異步操作,以增強資源管理。
FastSwitch的動態區塊組管理器通過將連續區塊分組來優化記憶體分配,增加傳輸顆粒度。這種方法將延遲減少了高達3.11倍,與現有方法相比。多線程交換管理器通過啟用異步交換來提高標記生成效率,減少GPU閒置時間。它包含精細的同步,以避免正在進行的請求與新請求之間的衝突,確保在重疊過程中無縫操作。同時,KV快取重用機制保留CPU記憶體中的部分有效數據,通過避免冗餘的KV快取傳輸來減少預先切換的延遲。這些組件共同應對關鍵挑戰並改善LLM服務系統的整體性能。
研究人員使用LLaMA-8B和Qwen-32B模型在NVIDIA A10和A100等GPU上評估了FastSwitch。測試場景包括高頻率優先級更新和來自ShareGPT數據集的多輪對話,該數據集平均每次對話5.5輪。FastSwitch在各種指標上超越了vLLM。它在不同模型和工作負載中實現了P95 TTFT的加速為4.3-5.8倍,P99.9 TBT的加速為3.6-11.2倍。此外,FastSwitch提高了吞吐量最高達到1.44倍,證明其能夠有效處理複雜的工作負載。該系統還顯著減少了上下文切換的開銷,與vLLM相比,I/O利用率提高了1.3倍,GPU利用率提高了1.42倍。
FastSwitch的優化帶來了可觀的效益。例如,其KV快取重用機制將交換出的區塊減少了53%,顯著降低了延遲。多線程交換管理器提高了標記生成效率,在P99延遲下實現了21.8%的改善,與基準系統相比。動態區塊組管理器通過以較大區塊分配記憶體來維持顆粒度,平衡效率和利用率。這些進展突顯了FastSwitch在高需求環境中維持公平性和效率的能力。
研究的主要收穫包括:
動態區塊組管理器:通過更大的記憶體傳輸改善I/O帶寬利用,將上下文切換延遲減少了3.11倍。
多線程交換管理器:在P99延遲下提高了標記生成效率21.8%,通過異步操作最小化GPU閒置時間。
KV快取重用機制:將交換出量減少了53%,實現了有效重用快取數據並降低預先切換延遲。
性能指標:FastSwitch在TBT上達到最高11.2倍的加速,在高優先級工作負載下提高了1.44倍的吞吐量。
可擴展性:在LLaMA-8B和Qwen-32B等模型上展示了強大的性能,展現了在多樣化操作場景中的通用性。
總之,FastSwitch通過引入創新的優化來解決LLM服務中的基本低效問題,平衡公平性和效率。減少上下文切換的開銷並增強資源利用確保了在多用戶環境中可擴展且高質量的服務交付。這些進展使其成為現代LLM部署的變革性解決方案。
查看論文。此項研究的所有功勞歸功於該項目的研究人員。此外,請別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你一定會喜歡我們的電子報。別忘了加入我們的55k+機器學習SubReddit。
🎙️ 🚨「大型語言模型漏洞的評估:紅隊技術的比較分析」閱讀完整報告(廣告)
Sana Hassan是Marktechpost的顧問實習生,也是IIT Madras的雙學位學生,熱衷於應用技術和人工智慧解決現實挑戰。對解決實際問題有濃厚興趣的他,為人工智慧與現實解決方案的交集帶來了全新的視角。