空間時間數據處理是指分析在時間和空間中收集到的信息,通常是通過感測器來獲取的。這些數據對於發現模式和預測非常重要。然而,缺失的數據會造成問題,讓分析變得困難。這些缺口常常會導致數據集的不一致,進而使分析變得更加困難。特徵之間的關係,例如環境或物理因素,可能非常複雜,並受到地理環境的影響。準確捕捉這些關係是關鍵,但由於特徵之間的相關性不同以及現有方法的限制,這仍然是一個挑戰。
目前解決空間時間數據中缺失值的方法依賴於固定的空間圖和圖神經網絡(GNN)來捕捉空間依賴性。這些方法假設不同地點之間的特徵空間關係是一致的。然而,這些方法並沒有考慮到感測器記錄的特徵在各自的地方和環境中往往具有不同的關係。因此,這些方法無法正確管理和表示各種特徵的複雜空間關係,導致對缺失信息問題的錯誤估計,以及對詳細的時間和空間相互關係的整合不當。
為了解決空間時間插補的挑戰,中國南開大學和哈爾濱工業大學(深圳)研究人員提出了多尺度圖結構學習框架(GSLI)。這個框架通過結合兩種方法來適應空間相關性:節點級學習和特徵級學習。節點級學習專注於個別特徵的全球空間依賴性,而特徵級學習則揭示了節點內特徵之間的空間關係。與依賴靜態結構的傳統方法不同,這個框架針對特徵的異質性,並整合了空間時間相關性。
這個框架使用靜態圖來表示空間數據和基於時間的信息,缺失數據則用遮罩來標示。節點級學習利用元節點來強調影響力大的節點,形成特徵特定的空間依賴元圖。特徵級學習則生成捕捉特徵之間空間關係的元圖。這個設計試圖捕捉跨特徵和跨時間的依賴性,但代價是計算複雜性增加。
研究人員使用英特爾至強銀牌4314 CPU和NVIDIA RTX 4090 GPU在六個現實世界的空間時間數據集上評估了GSLI的性能,這些數據集都有缺失值。當沒有提供鄰接矩陣時,會進行構建,缺失值如果缺乏真實值則會被排除。插補準確性使用RMSE和MAE指標在不同缺失率下進行評估,包括MCAR、MAR和MNAR。GSLI在所有數據集上都超越了最先進的方法,通過圖結構有效捕捉空間依賴性。它建模跨時間和跨特徵的依賴性,使其能夠更好地適應各種情況,五次試驗的結果顯示,即使在缺失率或機制增加的情況下,準確性也保持穩定。
總結來說,這個提出的框架通過解決特徵異質性和利用多尺度圖結構學習來提高準確性,推進了空間時間插補的研究。這項工作在六個現實世界的數據集中顯示,其性能優於更傳統的靜態空間圖技術,並且對變化具有穩健性。這個框架可以作為未來研究的基準,激發減少計算複雜性、處理更大數據集以及實現動態系統的即時插補的進步。
查看論文。這項研究的所有功勞都歸於這個項目的研究人員。此外,別忘了在Twitter上關注我們,加入我們的Telegram頻道和LinkedIn小組。也別忘了加入我們的60k+ ML SubReddit。
🚨 免費即將舉行的AI網絡研討會(2025年1月15日):利用合成數據和評估智慧提升LLM準確性——參加這個網絡研討會,獲取提升LLM模型性能和準確性的可行見解,同時保護數據隱私。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!