在這個時候,許多數據、分析和人工智慧(AI)機構正在為新的一年做計劃,並努力理解2025年會發生什麼事,就像在使用水晶球一樣。但所有的預測只有在正確的時候才有幫助。
如果你像我一樣是個幻想運動的粉絲,你一定知道把一個受期待的球員放進你的名單中,卻看到他在努力之後不小心把球掉了,這種感覺。基於這個想法,我想回顧一下我對2024年的預測,看看我是否如願以償,還是被新手球員擊潰了。
1. 數據湖屋將成為分析工作的主要架構
預測:“數據湖屋將成為分析的主流平台,超越傳統數據倉庫。”
發生了什麼:這一預測基本上成真了。根據我公司的《數據湖屋狀況調查報告》,69%的受訪者預期在接下來的三年內,他們超過一半的分析將在湖屋上進行,42%的湖屋數據來自雲端數據倉庫。數據湖屋相較於舊有架構提供了顯著的優勢,如成本效益、互操作性和無鎖定。正如調查所示,並根據與客戶的對話,湖屋正逐漸成為AI時代的主導架構。不過,它尚未在查詢量上超越雲端和傳統倉庫的結合。
2. Apache Iceberg將成為最受歡迎的表格格式,超越Delta Lake
預測:“Apache Iceberg將因其靈活性和開放性而超越Delta Lake,成為湖屋中最受歡迎的表格格式。”
發生了什麼:這一預測已經實現,Databricks收購Tabular,Snowflake也開放了Iceberg目錄,證明了這一點。Apache Iceberg是湖屋表格格式的開放標準。組織選擇Apache Iceberg,因為它的開放架構,最近的調查顯示它已成為數據互操作性的首選。隨著越來越多的企業尋求靈活性並避免供應商鎖定及對數據的擁有,Iceberg的崛起作為開放標準是合情合理且令人興奮的。
3. DataOps將從炒作轉向生產,採用CI/CD、類Git版本控制和自動數據質量檢查
預測:“DataOps將整合開發最佳實踐,如持續集成/持續交付(CI/CD)和版本控制進入數據管理,將會得到廣泛採用,導致更自動化、高效的數據管道。”
發生了什麼:DataOps作為一個趨勢已被數據產品的上升所取代。今年所需管理和版本數據以確保數據正常運行和質量的原則依然存在,但術語已改變。雖然這些做法在2024年進入了生產,但組織仍需經歷更多變革以將這些做法實施到他們的組織中。預測是正確的,因為這些做法已進入生產,但進入生產的速度卻是錯誤的。dbt、SQL引擎和湖屋目錄的採用是推進數據產品和自動化DataOps流程的關鍵要素。
4. 數據網格的支柱將成為數據團隊促進採用和改善數據質量的核心要求
預測:“預期數據網格將繼續增長,組織將採納其原則以去中心化數據擁有權並改善數據團隊之間的協作。”
發生了什麼:這一預測100%實現,但應該說“數據網格的一個支柱”:數據產品(見上述預測#3)。我們所交談的組織對完全去中心化數據治理不感興趣。他們希望消除難以治理的提取和影子IT,但又要確保業務單位不會被阻擋(並生氣),因為他們無法訪問他們需要的數據來快速交付AI和商業智慧(BI)項目。數據產品調和了治理和靈活性。中央團隊可以在所有數據上應用企業級政策,而去中心化的團隊可以增加額外的治理,因為他們了解數據的語義。這樣就不會阻礙業務單位,讓他們可以順利工作,而不需要請求。中央數據團隊和業務單位都討厭請求。數據產品被證明是通往“無請求”未來的首選方法。
5. 生成式AI將被數據工程師在幾乎每個項目中使用,提高生產力三分之一
預測:“生成式AI將成為數據工程師的重要工具,通過自動化數據任務和推動用戶互動來提高生產力。”
發生了什麼:這一預測也基本上實現了。生成式AI改變了數據團隊的工作方式,尤其是在語義搜索、數據發現和管道自動化等任務上。生成式AI在數據工具中的集成導致了顯著的生產力提升,正如預期的那樣,AI已嵌入到數據工作流程中。生成式AI所支持的自助數據產品的基礎,正在為企業內部更民主化和可訪問的數據鋪平道路。不過,我們無法確定團隊是否實現了30%的生產力增長,因為許多團隊在項目和管道工作中尚未考慮“以AI為先”。
衡量結果
總體來說,我會給我們去年的預測一個B,可能是B+。這些預測對市場有幫助,如果用在起始名單上,我們會贏。對於那些全力以赴,建立了Iceberg湖屋並利用DataOps最佳實踐來生成數據產品的團隊,他們很可能會贏得2024年的冠軍。
展望未來,看到哪些新趨勢將出現並繼續塑造數據和分析的未來,將會非常令人興奮。請繼續關注我們在2025年的更多更新和新預測!
本文由 AI 台灣 運用 AI 技術編撰,內容僅供參考,請自行核實相關資訊。
歡迎加入我們的 AI TAIWAN 台灣人工智慧中心 FB 社團,
隨時掌握最新 AI 動態與實用資訊!