計算擴展連接(CXL)作為一項創新的技術解決方案,應對當前計算基礎設施中關鍵的記憶體牆挑戰。這種互連技術提供了一種全面的方法來克服現有記憶體架構的限制,提供高帶寬密度和標準化的介面以便進行記憶體擴展和池化。CXL的創新設計吸引了來自工業和學術領域的廣泛關注,預示著其有潛力根本性地改變數據中心架構。包括英特爾、三星和SK海力士在內的主要技術領導者正在積極探索和實施CXL技術。這項技術的重要性不僅僅是逐步改進,還有望徹底革新計算系統在日益複雜的計算環境中如何管理和利用記憶體資源。
儘管CXL具有有前景的技術框架,但該技術面臨來自伺服器架構外部干擾所帶來的顯著性能挑戰。這種互連技術面臨來自主記憶體(MMEM)與鄰近存儲組件之間複雜交互的潛在性能威脅,而目前的研究尚未對此進行全面的檢視。維持性能隔離變得至關重要,特別是對於具有嚴格性能要求的應用。現有研究,例如MT2研究,試圖通過識別嘈雜鄰居和減少記憶體流量擾動來探索持久性記憶體與DRAM之間的干擾。然而,針對CXL的特定干擾機制仍然大多未受到研究。目前的模擬方法通常手動引入延遲因素,未能準確反映現實操作環境中不同計算組件之間的細微交互。
來自清華大學、中國科學院計算技術研究所、阿里巴巴集團和浙江大學的研究人員開發了CXL-干擾,一種系統性地表徵和分析CXL架構中記憶體和存儲系統之間潛在干擾機制的綜合方法論。該研究使用可配置的微基準和真實世界應用,跨越兩種不同的CXL硬體配置來識別和探索干擾條件。通過使用內核函數和硬體性能計數器進行詳細評估,研究小組調查了多個應用領域中的干擾情境,包括文件系統、數據庫、機器學習、大型語言模型、內存數據庫和圖形計算。重要的是,這項研究開創了對CXL干擾的首次真實設備調查,展示了理解複雜計算交互的新方法。研究成功探索了軟體和硬體干預策略,最終開發出解決方案,將記憶體帶寬恢復到其原始性能水平的99%。
CXL於2019年開發,代表了一個強大而獨特的開放標準互連,旨在通過計算組件之間的高速、低延遲通信來提升數據中心應用的性能。這項技術的協議堆棧由三個關鍵元素組成:CXL.io、CXL.cache和CXL.mem,每個元素促進不同的數據傳輸和記憶體訪問機制。CXL設備分為三種類型,其能力範圍從通信促進到記憶體資源共享和擴展不等。這些設備可以使用FPGA或ASIC技術實施,像英特爾、三星、Montage和美光等供應商正在積極開發創新解決方案。該技術通過提供先進的記憶體池化和擴展能力,解決了傳統記憶體系統中的基本限制,特別是傳統DRAM的容量和帶寬受到限制。
研究小組建立了全面的微基準,以系統性地評估CXL在多個記憶體和存儲操作中的干擾。實驗設置涉及對三個與記憶體相關的操作(加載、存儲和非時序存儲)以及兩個與存儲相關的操作(隨機讀取和隨機寫入)進行交叉評估。研究人員仔細控制實驗條件,通過禁用超執行緒、鎖定CPU頻率和在每次測試前清除快取來確保準確性。實驗將主要和干擾過程分配到同一NUMA節點內的不同核心,確保測量準確性。進行了多次測試迭代,以獲得統計上可靠的平均結果。微基準設計允許對CXL、MMEM和存儲系統之間的干擾機制進行詳細探索,提供了對不同計算配置中性能互動的細緻見解。
研究調查探索了四種類型的應用中的干擾情境,並系統地將其分類為A型至D型。這些類別包括在CXL流量下的文件系統相關應用、在SSD流量下的CXL相關應用、在CXL流量下的MMEM相關應用,以及在MMEM流量下的CXL相關應用。研究人員選擇了多種計算特徵各異的應用,以全面分析干擾機制。該研究仔細記錄了不同情境下的性能影響。分析顯示,在多種訪問類型和系統配置中存在一致的競爭和干擾模式,突顯了現代伺服器架構中計算組件之間的複雜相互依賴性。
隨著CXL技術從理論概念轉向商業可用設備,研究人員認識到需要超越孤立的特徵來檢查這些組件。該研究揭示了當CXL設備與其他系統組件互動時,顯著的性能影響,顯示在特定的干擾情境下性能可能下降高達93.2%。通過系統性地調查這些性能中斷的根本原因,研究不僅強調了現代計算架構中的複雜交互,還提出了針對性機制來管理CXL流量。全面的評估提供了對新興記憶體和互連技術的技術挑戰及潛在緩解策略的關鍵見解,提供了對下一代計算基礎設施中固有性能權衡的細緻理解。
查看論文。這項研究的所有功勞都歸於該項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。如果你喜歡我們的工作,你會喜歡我們的通訊。不要忘記加入我們的60k+ ML SubReddit。
🎙️ 🚨 ‘大型語言模型脆弱性評估:紅隊技術的比較分析’ 閱讀完整報告(促銷)