商業智慧(BI)在有效地將大量數據轉化為可行的見解方面面臨重大挑戰。目前的工作流程涉及多個複雜的階段,包括數據準備、分析和可視化,這需要數據工程師、科學家和分析師之間的廣泛合作,並使用各種專業工具。這些過程耗時且繁瑣,要求大量的手動干預和協調。專業人士和工具之間的複雜相互依賴關係減緩了見解的生成,延遲了決策,降低了組織的靈活性。這些限制突顯了對更整合和自動化的BI工作流程的迫切需求。
現有的BI平台試圖通過各種方法來解決工作流程的挑戰。像Tableau、Power BI和Databricks這樣的平台已經開發了圖形用戶界面來支持數據轉換和儀表板生成。這些平台還集成了自然語言界面,以減少手動操作的負擔。一些研究努力探索基於本體的方法來增強語義信息和查詢解釋能力。以往的研究主要集中在特定的數據分析場景,調查數據分析師如何與大型語言模型(LLM)互動,並識別出上下文數據檢索和提示優化等挑戰。然而,這些現有的解決方案主要針對單一任務,缺乏對BI工作流程的詳細統一方法。
來自浙江大學國家重點實驗室、騰訊公司(Tencent Inc.)、南方科技大學和北京大學的研究人員提出了DataLab,一個統一的BI平台,該平台集成了一個基於LLM的代理框架和增強計算筆記本界面。它通過在單一環境中無縫結合LLM的幫助和用戶自定義,支持不同數據角色的各種BI任務。DataLab克服了現有的分散和針對特定任務的BI工具的限制。這種方法的關鍵創新在於它能夠創建一個整體解決方案,彌合不同數據角色、任務和工具之間的差距,可能會徹底改變組織處理數據分析和決策過程的方式。
DataLab的架構戰略性地圍繞兩個主要組件設計:基於LLM的代理框架和計算筆記本界面。基於LLM的代理框架採用複雜的多代理方法來處理各種商業智慧任務。每個代理都是專門設計來滿足特定程序要求,利用有向無環圖(DAG)結構來確保靈活性和可擴展性。該框架使用各種數據工具,如用於代碼執行的Python沙盒和用於可視化渲染的VegaLite環境。架構的創新設計允許節點表示可重用的組件,如LLM API和工具,而邊則定義這些組件之間的相互連接。
DataLab在各種BI任務中表現出色,在多個基準測試中持續超越最先進的基於LLM的基準,包括BIRD、DS-1000、DSEval、InsightBench和VisEval。其卓越的能力源於其創新的領域知識整合模塊和複雜的數據分析策略。對於符號語言生成任務,如NL2SQL、NL2DSCode和NL2VIS,DataLab通過利用中間的領域特定語言規範來產生高質量的結果。在某些基準的複雜多步推理任務中,DataLab的表現比現有框架AutoGen高出19.35%。這顯示了該平台的先進數據理解能力和結構化的代理間通信機制,促進了詳細見解的發現。
總結來說,研究人員提出了DataLab,這是一個統一的BI平台,集成了基於LLM的代理框架和計算筆記本界面。該平台引入了創新的組件,包括領域知識整合模塊、代理間通信機制和基於單元的上下文管理策略。這些先進的功能允許LLM的幫助與用戶自定義無縫整合,解決了當前BI工作流程中的關鍵挑戰。通過提供支持多樣數據角色和任務的詳細解決方案,DataLab代表了自動化數據分析的一個重要進步。廣泛的實驗評估驗證了該平台在企業環境中的卓越有效性和實用性。
新聞來源
本文由 AI 台灣 使用 AI 編撰,內容僅供參考,請自行進行事實查核。加入 AI TAIWAN Google News,隨時掌握最新 AI 資訊!