人工智慧的進步讓我們進入了一個數據量和計算需求快速增長的時代。AI的訓練和推理工作負載不僅需要強大的計算能力,還需要能夠管理大規模並發數據訪問的存儲解決方案。傳統的文件系統在面對高吞吐量的數據訪問時常常無法滿足需求,這可能導致性能瓶頸,從而減慢訓練週期並增加推理時的延遲。在分散式環境中,數千個計算節點可能需要同時訪問數據,因此擁有一個提供低延遲訪問和可靠擴展性的存儲系統變得至關重要。這對於處理大量數據集和實時數據操作的現代AI管道尤其重要。
DeepSeek AI推出了Fire-Flyer文件系統(3FS),這是一個專門為滿足AI訓練和推理工作負載需求而設計的分散式文件系統。3FS考慮到現代固態硬碟(SSD)和RDMA網絡,提供了一個適合開發分散式應用的共享存儲層。這個文件系統的架構不同於傳統設計,通過將數千個SSD的吞吐量與多個存儲節點提供的網絡容量結合起來,實現了大規模數據訪問,並且不受傳統數據位置限制的影響,讓數據處理變得更加靈活和高效。
技術細節與優勢
3FS的核心是幾個創新功能的巧妙整合。其中一個顯著特點是其分散式架構。通過將數千個SSD的能力與數百個存儲節點的帶寬結合,3FS促進了大規模數據訪問,並繞過了許多傳統依賴位置的文件系統所面臨的限制。
另一個關鍵特點是使用鏈式複製和分配查詢(CRAQ)來保持系統的一致性。許多分散式文件系統依賴最終一致性,這可能會使應用邏輯變得複雜,而CRAQ則確保即使在高併發或節點故障的情況下,數據仍然保持一致。這一設計選擇簡化了開發過程,並有助於維持系統的可靠性。
此外,3FS還包含無狀態的元數據服務,這些服務由事務性鍵值存儲(如FoundationDB)支持。通過將元數據管理與存儲層解耦,系統不僅變得更具可擴展性,還減少了與元數據操作相關的潛在瓶頸。這種關注點的分離意味著,隨著數據量的增長,系統可以更高效地管理元數據,而不影響整體性能。
對於推理工作負載,3FS提供了一種創新的緩存機制,稱為KVCache。傳統的基於DRAM的緩存既昂貴又容量有限,但KVCache提供了一種成本效益高的替代方案,能夠提供高吞吐量和更大的緩存容量。這一特性在AI應用中尤其有價值,因為在語言模型中,重複訪問先前計算的數據(如鍵和值向量)對於維持性能至關重要。
性能基準與見解
3FS的性能通過幾項全面的基準測試進行了評估。在一次在180個節點的集群上進行的測試中,系統在處理訓練操作的背景流量時,實現了約6.6 TiB/s的讀取吞吐量。這一基準顯示了系統在要求苛刻的現實環境中管理大量數據的能力。
另一項基準測試專注於排序性能,使用GraySort測試來評估3FS如何處理大規模數據處理。在25個存儲節點和50個計算節點的集群上,系統在30分鐘內對分散在8192個分區的110.5 TiB數據進行了排序,平均吞吐量達到3.66 TiB/分鐘。這些數據強烈顯示了3FS高效處理密集數據任務的能力。

KVCache功能也顯示了顯著的性能提升。在推理測試中,KVCache達到了40 GiB/s的峰值讀取吞吐量。這一性能對於需要降低延遲的AI系統來說非常重要。此外,系統動態管理緩存記憶體,即使在處理緩存數據的垃圾收集複雜性時,仍能保持穩定的性能。

結論
DeepSeek AI推出的Fire-Flyer文件系統(3FS)是對現代AI工作流程中固有挑戰的深思熟慮的回應。通過專注於可擴展性、一致性和高效數據訪問,3FS為訓練和推理工作負載提供了一個穩健的平台。其分散式架構允許靈活使用數千個SSD和數百個存儲節點,而CRAQ的使用則確保數據保持一致可靠,這一特性簡化了系統設計並提高了整體穩定性。
將元數據服務與存儲層分開,加上創新的KVCache系統來處理推理任務,使3FS成為解決分散式AI存儲挑戰的前瞻性解決方案。性能基準進一步確認了該系統能夠以令人印象深刻的吞吐量和效率管理大量數據。最終,Fire-Flyer文件系統是一個精心設計的工具,旨在滿足當今數據密集型AI應用的需求,為該領域的持續創新提供可靠的基礎。
查看GitHub Repo。所有研究的功勞歸於這個項目的研究人員。此外,隨時在Twitter上關注我們,別忘了加入我們的80k+ ML SubReddit。
🚨 推薦閱讀 – LG AI Research發布NEXUS:一個先進的系統,整合了代理AI系統和數據合規標準,以解決AI數據集中的法律問題。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!