當前數據架構中最重要的發展不是數據網格(data mesh)和數據織物(data fabric)概念的日益關注,而是這兩種架構方法的潛力可以融合成一種單一架構,支持去中心化和中心化的整合數據、本地數據擁有權、普遍的可及性以及自上而下和自下而上的實施方法。
實際上,數據網格和數據織物之間的相似性多於差異。我認為,它們並不是彼此對立,而是互補的建構,讓數據在組織內部(和之間)可用。當正確實施知識圖譜(knowledge graph)技術時,它們變成了一種強大的方法,能夠設計可重用的整合數據產品,這些產品可以跨越業務領域和整個企業。
結合自上而下和自下而上的方法
數據網格和數據織物的核心原則是什麼?數據網格的概念是一種自下而上的理念,將數據責任分配給特定的業務單位或業務領域專家組,並淡化像數據倉庫這樣的集中基礎設施。而數據織物則是一種自上而下的、以使用者自助服務為驅動的方法,旨在整合來自組織各部分的數據。通常,它將數據集的貢獻責任分配到數據產生地點的更接近地方;它還利用人工智慧(AI)使用元數據自動化數據的發現和整合,以達到一個中央的真實版本,這種方法隨著基於生成性AI(genAI)的數據描述和整合解決方案的興起而變得越來越可行。
然而,實際上,這兩種數據架構提供的都是需要的。在更高的層面上,數據織物可以整合在組織內部的本地數據網格的數據產品。當這些數據資產通過語義技術得到良好描述時,組織可以通過提高數據集的可重用性來統一這些架構,同時降低成本、實現價值的時間,以及提取、轉換、加載(ETL)和提取、加載、轉換(ELT)過程的複雜性,同時增加從更豐富的表現中利用數據關係的能力。
互補的架構
當要實施數據織物的方法時,幾乎不可能不使用一些來自數據網格理念的想法和技巧。數據網格將數據管理職責本地化到業務小組,而不是在像數據湖和數據倉庫這樣的集中選項中進行跨領域的合併。
數據織物也可以做到這一點;實施數據織物並不意味著將所有內容集中到一個數據倉庫中。例如,它需要相反的做法:建立領域專家,獲取數據,實施服務水平協議(SLA),然後正式化元數據,以確保數據集乾淨、可靠和可重用。數據網格的支持者將這些精心策劃的數據集稱為“數據產品”。數據織物的產出也是一種數據產品,但它位於更高的層級,整合來自整個組織的數據(而不是單個業務單位)。
例如,假設一家公司希望將SAP系統作為其數據織物的數據來源。該來源的數據擁有者將使這些數據可重用,以便其他部門能夠使用,但同時在最有意義的地方公開數據,同時保留對這些資產的控制。數據網格的支持者可以(且通常會)為他們的來源倡導同樣的做法。
知識圖譜的關鍵角色
支撐知識圖譜的語義開放數據標準非常適合數據網格和數據織物架構,以及它們的融合。語義技術在提供統一、基於標準的數據資產或產品描述方面表現出色,這些描述使用為用戶、系統和應用程序之間的理解和無縫協作而設計的商業友好術語。
語義技術的關鍵在於共享模型和相關的良好描述數據。專家可以在整合數據上實施這些技術標準,以便任何需要這些數據產品的人都能重用這些數據,無論是用於數據網格還是數據織物。此外,這些標準還支持將數據產品結合起來,為新興用例製作額外的產品,比如將來自不同領域的數據連接起來以形成數據織物。這樣做可以像通過共享實體或關係建立單一概念聯繫(圖邊)一樣簡單,從而使結合的數據可以被查詢。
同時,語義知識圖譜技術對於實施數據織物來說是理想的。數據織物涉及整合來自眾多來源、模式、數據類型(包括結構化和複雜的非結構化信息)等各種數據。因此,生成的模型變得更加複雜和詳細;這需要技術來處理複雜的關係和描述,以連接這些數據。語義知識圖譜在編織數據織物所需的更高層次抽象中滿足了這一需求。
雙層架構
將數據織物和數據網格架構概念化的一個簡單方法是將其視為共同架構的兩個層級。第一層,數據網格是最接近數據來源和商業背景理解的自下而上的方法。這一層級提供數據,這些數據根據語義標準以豐富的元數據描述,以便從業務領域小組中生成可重用的數據產品。目標是使這些本地化的描述在整個企業中有意義且可及。語義技術通過RDF、OWL和分類法的標準來實現這一目標,使數據集能夠被所有人輕鬆理解。
數據織物是位於數據網格上方的自上而下的方法。它整合來自不同領域、位置和數據集的任何數據產品。這一架構非常適合通過跨領域合併數據產品來設計新數據產品。因此,數據織物包括所有業務領域,同時保留這些數據資產的特定業務所有權的含義。因此,當兩種架構結合時,組織能夠受益於每種架構的最佳元素。
人工智慧的角色
人工智慧在自動化數據織物所需的數據整合方面的能力,以及與數據網格的統一,過去可能被過分渲染。然而,生成性AI的出現正在改變這一點。例子包括數據的自動分類和本體描述、數據映射和數據清理。使用OWL本體元數據以自然語言描述數據的一個意外好處是,使用這一標準分配的數據意義既易於理解,又可由生成性AI解決方案採取行動。這種意外的協同效應出現是因為大型語言模型(LLMs)在大量自然語言文本上進行了訓練。
如今,在數據整合方面,人工智慧的使用仍然有些有限。數據織物的支持者聲稱,這一方法包括通過元數據自動化數據整合,這通常是謹慎數據整合的重要組成部分。然而,當代的整合過程同樣圍繞著實際數據本身,與元數據同樣重要。更傳統的人工智慧和機器學習在數據織物的整合中確實有一些效用,實際的應用也存在。例如,人工智慧可以自動生成描述數據的知識圖譜,以努力統一數據網格和數據織物架構。此外,還有許多技術可以識別數據集中的連接,並對其進行智能建議,以加速特定領域知識圖譜的填充。例子包括語義推理這樣的方法,其中關於數據的自我描述語句被結合來推導新的語句。
還有一些以符號推理和基於OWL的推理為特徵的方法。相關的無監督學習技術包括各種降維和聚類的方法。監督學習應用包括連接預測,這可以通過圖神經網絡來促進。還有大量的實體解析技術,用以確定一個數據集中實體是否與另一個數據集中的實體相同或相關。這些技術越來越依賴於人工智慧和機器學習。然而,在整合過程中數據的規模、複雜性和各種區別仍然需要人類的努力與自動化相結合。我們可以預期這種平衡在未來1到3年內將向全面自動化轉變,因為生成性AI將逐漸進入數據整合解決方案。
結合數據網格和數據織物的好處
數據網格和數據織物的融合形成了兩層知識圖譜驅動的架構,帶來了顯著的優勢。它減少了轉換數據所需的ETL和ELT處理量。良好描述的語義標記數據本質上是可重用的。語義技術使數據以自然語言商業術語自我描述,因此一旦領域專家將這些描述作為模型引入,它們就可以在領域內和領域間無限重用。
降低成本是這一方法的另一個顯著好處。由於語義數據是可重用的,組織可以在清理原始數據和處理數據上花費更少的成本。目前,映射、清理和標準化原始數據的成本是相當可觀的;而使用語義技術,這一過程只需進行一次。這些節省迅速累積。
這一方法還能縮短實現價值的時間;畢竟,準備數據所需的時間越少,便能更快地訪問分析、洞察和商業行動。這也意味著可以有更多的數據整合以支持額外的商業案例,而不增加數據工程資源。同時,還能提高識別、管理和互連不同數據集之間關係的能力。這一好處確保了對數據在數據發現和數據探索中的重要性的更好理解,從而提高分析的效果和組織所能獲得的價值。
共生關係與數據架構的新時代
數據網格和數據織物的概念很好地協同工作,以實現相似的目標。它們將數據的責任本地化到業務單位,而不使用傳統的集中化方法,並在整個企業內創建精心策劃的可重用數據產品。數據網格對於這一任務採取的是自下而上的方法,而數據織物則是自上而下的方法。
將這些方法統一成一種單一架構,能夠開創數據架構的新時代,特別是當它們的實施得以簡化,並且其效能因知識圖譜的豐富、自我描述特性而得到增強時。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!