將數據從湖泊中重新攝取
逐步處理新文件,因為它們降落在雲存儲上 - 無需管理狀態信息 - 在計劃或連續作業中。有效地跟蹤新文件(具有縮放為數十億個文件的功能)而無需在目錄中列出它們。Databricks自動從源數據中瀏覽架構,並將其演變為數據加載到其中三角洲湖湖景房。
自動化數據轉換和處理
一旦數據被攝入到LakeHouse中,數據工程師需要將原始數據轉變為準備用於分析,數據科學或機器學習的結構化數據。簡化Delta Live Tables(DLT)簡化數據轉換 - 這是一種簡單的方法,可以在Delta湖上為新鮮,高質量的數據構建和管理數據流水線。DLT通過簡化ETL開發和管理,通過聲明化管道開發,提高數據可靠性和雲規模生產操作來幫助數據工程團隊,以幫助建立Lakehouse基金會。
將可靠性和質量構建到您的管道中
數據質量和完整性對於確保Lakehouse內的數據的整體一致性至關重要,以獲得準確和有用的BI,數據科學和機器學習。通過能夠通過預定義的錯誤策略來定義和強製數據質量(失敗,刪除,警報或隔離數據)和驗證和完整性檢查,您可以防止錯誤的數據流入表格,並在對業務影響之前避免數據質量錯誤。此外,您還可以通過時間監控數據質量趨勢,以了解數據如何發展以及可能需要更改的情況。這些內置質量控製和架構在Delta Lake的強製工具保存數據工程團隊在錯誤處理和恢複時的巨大時間和能量。由於DataBricks在Apache Spark™的頂部構建,因此數據工程師能夠在大規模規模上建立高度可靠和性能的數據流水線,支持生產數據科學。
易於協調管道
安排DLT管道使用DataBreicks作業,為具有多個任務的端到端生產準備管道啟用自動全部支持。Databricks作業包括一個調度程序,允許數據工程師為其ETL工作負載指定計劃的時間,並設置告知,告訴他們作業是否成功運行。
與數據科學家和建築師合作
一旦進入和處理數據,數據工程師可以通過使組織中的每個用戶能夠實時訪問和協作數據來解鎖其價值。使用工具訪問和使用數據,共享數據集,預測,模型和筆記本電腦,並確保可靠的單一事實來源,數據工程師可以更好地確保所有工作負載中的一致性和可靠性 - 以及使用數據分析師,數據進行更好的協作使用數據的科學家和數據管理。
準備開始嗎?