現代的資料架構是支持每個企業想要成為數據驅動組織的必要條件。如果沒有穩固的資料架構,這包括你設置的數據收集、儲存、管理和使用的模型、政策、規則和標準,你將無法全面了解你的業務,做出明智的決策,並迅速適應新發展。
在DATAVERSITY®的網路研討會中,全球數據戰略有限公司 (Global Data Strategy, Ltd.) 的董事總經理Donna Burbank分享了調查結果,說明明確的資料架構如何幫助組織。這些好處包括改善IT和商業團隊之間的合作;提升數據質量、效率、IT生產力和投資回報率(ROI);降低營運成本;以及加快市場速度。
隨著我們進入麥肯錫 (McKinsey) 所稱的“數據普及”時代——數據將嵌入系統、流程、渠道、互動和驅動自動行動的決策點,並且隨著生成式人工智慧 (GenAI) 改變我們的數據互動,思考如何適應這些新需求的資料架構是明智的。以下是將在未來一年中塑造商業環境的數據架構趨勢。
協調數據網格與數據結構
企業將越來越認同他們可以——甚至應該——實施並整合數據結構和數據網格架構,將分散的數據來源聯結在一起,以改善數據治理、可發現性和訪問性,並通過後者去中心化數據擁有權,以便團隊可以將數據作為產品創建和管理。
如果你需要進一步證明這兩種架構方法可以和諧融合以加強你的數據基礎設施,請考慮這一點:Gartner已經安排了一場名為“R.I.P. 數據結構與網格辯論”的會議,將在3月的數據與分析峰會中討論部署結構設計以統一數據管理和網格運作模型以分配數據管理。
對許多組織而言,接受這種混合方法在2025年將是有意義的,以便從數據中釋放更多價值。他們需要回答的問題是如何完成這項任務。
DATAVERSITY建議你先了解你的商業目標,以及如何讓數據策略和整體架構支持這些目標。你的方法應根據對數據能力、用例候選、可用技術資源等的評估來制定。
“數據結構其實支持建立數據網格,因為結構提供了底層的數據管理和整合框架,使得數據網格的核心原則能有效運作,”生成式人工智慧數據結構供應商Promethium的CEO兼創始人Kaycee Lai解釋說。“通過利用這兩種範式,組織可以建立一個全面的數據基礎設施,促進跨領域的合作、數據擁有權和高效的數據共享。”
零售超市巨頭克羅格 (Kroger) 已經採用了這種混合方法。為了打破孤島、改善數據可及性和質量,並促進整個企業的數據驅動決策,克羅格部署了一個由數據結構和其他技術支持的數據網格。
克羅格的架構副總裁Nate Sylvester說:“數據網格實際上是關於我們如何在業務單位內組織和創建去中心化的團隊。數據結構是讓我們能夠互操作的連接組織。”
克羅格的數據網格架構重新組織了圍繞供應鏈等領域的團隊和數據,使其與業務能力相對應。數據結構為各領域之間的互動和數據交換提供了標準和一致性。
克服生成式人工智慧的數據準備障礙
Researchscape對企業AI和現代數據架構狀態的最新調查顯示,最多的受訪者(67%)已經部署了生成式人工智慧,而其他類型的AI技術則較少。根據KPMG的生成式AI調查,50%的領導者預期從生成式AI投資中獲得最大價值將來自通過分析客戶數據來增強現有產品和服務,提升效率以產生更高的生產力(48%),改善產品質量、效率和創新(42%),以及改善供應鏈效率和降低成本(37%)。
但大多數公司在新的一年裡還需要進一步努力,以實現這些目標。“解決數據缺陷已成為應對生成式人工智慧特定需求的關鍵步驟,”德勤人工智慧研究所(Deloitte AI Institute)指出。
為了現代化數據相關能力,組織正在加強數據安全(54%)、改善數據質量實踐(48%),以及更新數據治理框架和/或制定新的數據政策(45%)。
生成式人工智慧依賴於非結構化數據——如文本、圖片、視頻和音頻——這些數據是生成新見解的最豐富來源。正如Securiti的CEO Rehan Jalil所指出的,非結構化數據的巨大量和多樣性使其治理、管理和安全變得極其困難。“企業渴望利用生成式人工智慧的力量,但許多人低估了管理非結構化數據的複雜性,”他解釋道。
他對如何妥善管理和有效使用非結構化數據以進行生成式人工智慧項目提出了以下建議:
- 發現、目錄和分類非結構化數據
- 保留非結構化數據的訪問權限
- 追踪非結構化數據的來源
- 整理非結構化數據
- 清理非結構化數據
- 專注於非結構化數據的質量
- 用預設政策保護非結構化的提示和回應
利用生成式人工智慧處理數據管理任務
波士頓諮詢集團(Boston Consulting Group)提出,生成式人工智慧在數據管理挑戰中具有特定的應用,這些挑戰本身由於訓練模型所需的大量非結構化數據而加劇。“數據治理很少是效率和有效性的代表,對於許多公司來說,它是一個痛點,工作過於手動和繁瑣——特別是在高度監管或涉及大量個人識別信息的行業中,這是一個真正的頭痛,”BCG表示。
生成式人工智慧能夠實際上消除這些手動和繁瑣的工作。“生成式人工智慧的關鍵特徵——對非結構化數據的親和力和創建內容的能力,使其成為提高數據管理效率和有效性的自然工具。”
BCG提出了在數據治理和管理實踐中嵌入生成式人工智慧的六個使用案例:
- 創建元數據標籤,如數據來源和適用的使用權限
- 註明來源信息,例如捕獲和維護跨系統的來源數據
- 增強數據質量,如加速和自動化關鍵任務,包括刪除重複記錄和標準化數據格式
- 改善數據清理,如合成缺失的訓練數據並刪除無意義、損壞或其他無法使用的數據
- 管理政策合規性,例如使用生成式人工智慧驅動的知識庫、合規檢查和行動建議
- 匿名化數據,例如轉換包含敏感或個人識別信息的數據
“人工智慧帶來了一整套新的挑戰,如公平性、透明度和人工智慧倫理,以及遵守新興的人工智慧法規的需求。為了解決這些挑戰,數據治理框架必須迅速發展,以支持傳統人工智慧和生成式人工智慧,”Dataworkz的GTM顧問Dharma Kuthanur說。
投資企業數據湖屋
雖然非結構化數據在大多數公司的數據中佔了很大一部分(通常約80%),但結構化數據也在增強企業的儲存需求中發揮作用。根據《AI與信息管理報告》,64%的組織管理至少一個PB的數據,而41%的組織擁有至少500PB的數據。
到2028年,全球數據創建預計將增長到超過394ZB——顯然,企業將佔有相當的份額。
現在是開啟數據湖屋的時候,數據湖屋結合了數據湖和數據倉庫的能力,簡化了數據架構和分析,統一儲存和處理結構化、非結構化和半結構化數據。
“企業越來越多地投資於數據湖屋以保持競爭力,”市場調查公司(MarketResearch)指出,該市場預計將以22.9%的年增長率增長,到2033年將超過660億美元。
“即時分析和決策的需求增長正在推動數據湖屋市場的發展。公司希望利用數據迅速做出明智的決策,以獲得競爭優勢,”市場調查公司表示。
數據湖屋架構的靈活性使其能夠適應企業未來的分析需求。數據湖屋中的數據可以以原始形式儲存,無需預先定義的架構,因此你可以從各個來源捕獲和儲存多樣的數據集,而不必擔心事先的轉換或架構修改。
越來越多的數據湖屋被用來加速新興的商業案例,如物聯網(IoT)見解和即時見解,並降低成本和改善數據治理。Forrester建議公司與利用生成式人工智慧能力的平台供應商合作;提供包括流式處理、轉換、工作負載管理、整合、治理和安全性在內的端到端集成湖屋;並以業務速度提供性能,具備自動性能優化、高級工作負載管理和並行數據處理及轉換等功能。
關注數據可觀察性
“到2026年,三分之二的企業將投資於改進數據信任的計劃,通過自動化的數據可觀察性工具來解決檢測、解決和預防數據可靠性問題,”ISG的商業、研究和數據總監Matt Aslett說,他曾是Ventana Research的副總裁和研究總監,該公司在2023年底被ISG收購。
Ventana的分析和數據基準研究顯示,只有20%的參與者對他們分析所需數據的能力非常有信心,以做出明智的商業決策。
結論
利用明確定義的數據架構作為決策基礎所能獲得的價值將不斷增長。隨著數據來源的增多、數據類型的多樣化、即時處理需求的擴大,以及基於雲的數據和儲存平台在日益由人工智慧驅動的世界中蓬勃發展,維護這些架構的複雜性也會增加。
現在就開始計劃如何應對這些變化,並加速商業優勢。
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!