使用變壓器語言模型的推理過程
使用變壓器(transformer)語言模型進行推理時,首先需要處理提示(prompt)。在這個步驟中,模型會生成第一個輸出標記,並儲存未來生成步驟所需的KV快取(KV cache)。這個提示處理的過程可能會很耗費計算資源,尤其是當提示的長度或批次大小增加時,對於擁有十億參數的模型,在邊緣設備上可能需要花費十幾秒甚至更長的時間。這會影響使用者的體驗,因為模型的輸出會有明顯的延遲。
為了減少生成預訓練模型的第一個輸出所需的時間(稱為“第一次標記時間”,或TTFT),我們提出了一種新方法,稱為KV預測(KV Prediction)。在這個方法中,我們使用一個小型輔助模型來處理提示,並生成基礎模型所需的KV快取的近似值。這個近似的KV快取隨後會與基礎模型一起使用,進行自回歸生成,而不需要再次查詢輔助模型。
我們的研究顯示,這種方法在效率和準確性之間達到了最佳的平衡,與基準相比,我們在TriviaQA上展示了15%到50%的相對準確性提升,這是在不同的TTFT FLOPs預算下的結果。我們還在固定的TTFT FLOPs預算下,展示了在HumanEval的Python代碼補全上,準確性提升高達30%。此外,我們在蘋果M2 Pro CPU(Apple M2 Pro CPU)上進行了基準測試,證明我們在FLOPs上的改進也轉化為硬體上的TTFT加速。我們在這裡釋出我們的代碼。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!