FastSwitch：在處理複雜LLM工作負載方面的突破，具備增強的標記生成和基於優先級的資源管理

大型語言模型（LLMs）已改變了人工智慧應用，驅動語言翻譯、虛擬助手和代碼生成等任務。這些模型依賴於資源密集型基礎設施，特別是具有高帶寬記憶體的GPU，以管理其計算需求。然而，為眾多用戶同時提供高質量服務帶來了重大挑戰。有效分配這些有限資源對於滿足時間敏感指標的服務水平目標（SLOs）至關重要，確保系統能夠應對更多用戶而不損害性能。

在LLM服務系統中，一個持續存在的問題是實現公平的資源分配，同時保持效率。現有系統往往優先考慮吞吐量，忽視公平性要求，例如在用戶之間平衡延遲。預先調度機制通過動態調整請求的優先級來解決這個問題。然而，這些機制引入了上下文切換的開銷，如GPU閒置和低效率的I/O利用，從而降低了關鍵性能指標，如首次標記時間（TTFT）和標記之間的時間（TBT）。例如，在高壓場景中，由於預先調度導致的停頓時間可能達到P99延遲的59.9%，從而顯著下降用戶體驗。

目前的解決方案，如vLLM，依賴於基於分頁的記憶體管理來解決GPU記憶體的限制，通過在GPU和CPU記憶體之間交換數據。雖然這些方法改善了吞吐量，但仍面臨限制。碎片化的記憶體分配、低I/O帶寬利用率以及在多輪對話中冗餘的數據傳輸等問題依然存在，削弱了它們的有效性。例如，vLLM的固定區塊大小為16個標記，導致顆粒度不佳，降低了PCIe帶寬效率並增加了預先上下文切換期間的延遲。

來自普渡大學、上海齊智研究院和清華大學的研究人員開發了FastSwitch，這是一個具有公平性意識的LLM服務系統，旨在解決上下文切換中的低效問題。FastSwitch引入了三個核心優化：動態區塊組管理器、多線程交換管理器和KV快取重用機制。這些創新協同作用，改善I/O利用，減少GPU閒置，並最小化冗餘數據傳輸。該系統的設計基於vLLM，但專注於粗粒度的記憶體分配和異步操作，以增強資源管理。

FastSwitch的動態區塊組管理器通過將連續區塊分組來優化記憶體分配，增加傳輸顆粒度。這種方法將延遲減少了高達3.11倍，與現有方法相比。多線程交換管理器通過啟用異步交換來提高標記生成效率，減少GPU閒置時間。它包含精細的同步，以避免正在進行的請求與新請求之間的衝突，確保在重疊過程中無縫操作。同時，KV快取重用機制保留CPU記憶體中的部分有效數據，通過避免冗餘的KV快取傳輸來減少預先切換的延遲。這些組件共同應對關鍵挑戰並改善LLM服務系統的整體性能。

研究人員使用LLaMA-8B和Qwen-32B模型在NVIDIA A10和A100等GPU上評估了FastSwitch。測試場景包括高頻率優先級更新和來自ShareGPT數據集的多輪對話，該數據集平均每次對話5.5輪。FastSwitch在各種指標上超越了vLLM。它在不同模型和工作負載中實現了P95 TTFT的加速為4.3-5.8倍，P99.9 TBT的加速為3.6-11.2倍。此外，FastSwitch提高了吞吐量最高達到1.44倍，證明其能夠有效處理複雜的工作負載。該系統還顯著減少了上下文切換的開銷，與vLLM相比，I/O利用率提高了1.3倍，GPU利用率提高了1.42倍。

FastSwitch的優化帶來了可觀的效益。例如，其KV快取重用機制將交換出的區塊減少了53%，顯著降低了延遲。多線程交換管理器提高了標記生成效率，在P99延遲下實現了21.8%的改善，與基準系統相比。動態區塊組管理器通過以較大區塊分配記憶體來維持顆粒度，平衡效率和利用率。這些進展突顯了FastSwitch在高需求環境中維持公平性和效率的能力。