在2012年,哈佛商業評論宣稱數據科學家是21世紀最性感的工作。
當時我們知道的是:大數據是一個巨大的機會,可以讓我們發現新的事物。我們正處於社交平台用戶生成內容的繁榮時期,這意味著大數據以各種形式大量湧入。那時,數據科學被視為一個“新興”的行業。
十多年後的今天,我們的情況如何?大數據和數據科學家仍然是非常重要的角色。根據美國勞工統計局的資料,數據科學家的就業預測在2023年至2033年間將增長36%——這比其他職業的增長率還要高。
但這裡有一個重要的議題:人工智慧(AI)。在AI時代,對準確、可解釋和可信數據的需求變得更加迫切,數據工程師也因此受到關注,他們的核心責任是建立高品質的數據管道,以產出可信的AI結果。
AI帶來數據管理和治理的新責任
數據是推動AI的燃料,而數據工程將持續發展,以滿足日益複雜的技術需求。隨著AI的演變,數據治理和隱私成為關鍵問題,並且將持續對遵守法規(如HIPAA、ISO、GDPR或歐盟AI法案)至關重要。數據不一致、不同類型的數據不兼容等問題可能會延緩模型開發,並使組織面臨隱私和治理的風險。
了解不良數據的影響
如果數據質量不佳且沒有適當處理,可能會導致錯誤的商業策略和意想不到的成本。根據Gartner的報告,數據質量不佳每年使組織平均損失1290萬美元。因此,從數據獲取、整合到清理、治理、存儲和分析準備,所有過程都必須透明且可解釋,以支持商業決策。
AI的奇怪之處在於,造成AI失敗的原因很少是算法或學習模型的問題。通常問題出在用來回答問題的數據質量上。——Dan Soceanu,SAS技術產品行銷高級經理
數據敏感性和隱私
數據質量風險之一是意外分享機密信息的潛在風險,尤其是在醫療保健領域,如病人數據。數據工程師使用數據遮罩和匿名化技術來保護個人和敏感信息。這確保了數據可以用於分析,而不會暴露敏感細節。
然而,將數據交給AI過程意味著必須採取措施,以確保敏感數據不會意外滲透到AI輸出中。數據工程師現在需要確保遵循道德準則,並且不帶有偏見。
“解決AI中的道德問題需要一個全面的策略,專注於公平、透明和問責,”SAS數據倫理實踐的數據科學家Vrushali Sawant說。“如果不清楚AI算法如何得出結論,就有可能延續社會不平等,並侵蝕對其決策的信任。”
合成數據的出現
數據工程師將在合成數據等新興技術中扮演重要角色。受監管的行業需要建立、訓練和測試模型,但面臨數據隱私和可用性方面的挑戰。將合成數據引入數據和AI平台可以克服這些問題,加速模型的開發和部署。
例如,在醫療保健領域,合成數據可以幫助解決罕見疾病的數據缺口,而在金融行業,它可以應對數據隱私的限制。
對合成數據的預測得到了支持。根據《福布斯》的報導,人工生成的數據集將成為機器學習模型的首選訓練場。
“合成數據可以解決多年來困擾組織的數據管理問題。組織花費大量時間獲取數據、準備數據和清理數據,以支持其AI開發工作,”SAS產品策略高級經理Brett Wujek表示。“這不是一次性的過程,而是重複發生的。通過可靠的合成數據生成過程,組織可以避免與數據獲取和準備相關的成本,並在任何時候都能輕鬆獲得所需的數據。”
AI工程師需要定期檢查合成數據集,以確保其質量高且準確反映真實模式。這是AI的一項新責任。
現代數據管理和自動化
機器學習和AI能力可以用來自動化重複性任務,讓數據工程師能夠專注於更具戰略性的工作。數據操作(DataOps)對數據工程和維持高品質數據管道至關重要。
“成功的AI之路與現代數據管理實踐密切相關,”Soceanu說。“數據驅動的AI常常受到企業內部非結構化、無法訪問的數據的阻礙。”
最高質量的數據需要隨時準備好,以便做出決策。尋找新方法來自動化和簡化數據任務將幫助數據工程師確保可信的數據傳遞給數據科學團隊。
數據和AI生命週期中的協同
支持AI計劃所需的大量預處理數據的需求急劇增長——而且沒有放緩的跡象。因此,數據工程團隊與數據科學團隊的合作比以往任何時候都更加緊密。但這不僅僅停留在數據科學上。AI的成功在於數據和AI平台支持所有角色,如數據工程師、數據科學家、MLOps工程師和商業分析師。在單一平台內工作使團隊能夠高效地完成端到端的數據和AI生命週期,並保持透明。
隨著數據管理和治理對確保可信的AI輸出變得越來越重要,數據和AI生命週期中每個角色的意義也在增長。數據工程師、數據科學家、MLOps工程師和商業分析師之間的加強合作將導致更快的價值實現和更可靠的AI。在這些角色中,數據工程師被視為無名英雄,在數據和AI計劃的基礎成功中扮演著重要角色。
數據和AI生命週期中,清理和準備數據所花費的時間佔據了相當大的比例,而不是建模或使用數據。Futurum Group對三個不同的數據和AI平台進行了深入分析,以衡量它們在數據和AI生命週期中的生產力影響。研究發現,數據工程任務,如數據上傳、數據分析、數據敏感性分析和數據質量分析的生產力是:
比商業平台的替代方案高出16倍。
比非商業平台的替代方案高出16倍。
閱讀報告,解鎖AI生產力與SAS Viya
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!