介紹磚工作流
磚工作流協調數據處理、機器學習和分析管道在磚Lakehouse平台。Beplay体育安卓版本工作流已經完全與磚編排管理服務綜合平台,包括磚工作運行非交互式的代碼在你的磚工作區和δ生活表構建可靠的和可維護的ETL管道。Beplay体育安卓版本
了解更多的好處與磚Lakehouse編排工作流平台,看到的Beplay体育安卓版本磚的工作流。
一個例子磚工作流
下圖展示了一個由磚策劃工作的工作流程:
運行一個三角洲生活表管道吸入從雲存儲原始點擊流數據,清理和準備數據,sessionizes數據,和堅持最終sessionized數據設置為三角洲湖。
運行一個三角洲生活表管道吸入訂單數據雲存儲,清理和轉換數據進行處理,最終的數據集保存到三角洲湖。
加入的順序和sessionized點擊流數據來創建一個新的數據集進行分析。
從準備的數據提取功能。
並行執行任務的堅持和訓練機器學習模型的特性。
磚的工作是什麼?
磚的工作是數據處理和分析應用程序運行在一個磚工作區。你的工作可以由一個任務或一個大的多任務工作流與複雜的依賴關係。磚管理任務的編排、集群管理、監視和錯誤報告所有的工作。你可以立即運行工作,定期通過一個易於使用的調度係統,每當新的文件到一個外部位置,或者不斷以確保工作總是運行的實例。您還可以交互式地在運行工作筆記本用戶界麵。
您可以創建和運行工作使用的工作界麵,磚CLI或通過調用API的工作。你可以修複和重新運行失敗或取消工作使用UI或API。您可以監視工作運行結果使用UI, CLI API和通知(例如,電子郵件、webhook目的地,或鬆弛的通知)。
學習使用磚CLI,明白了喬布斯CLI(遺留)。學習使用工作API,請參閱喬布斯API。
以下部分覆蓋磚工作的重要特性。
重要的
你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。
1000個並發任務工作空間是有限的。一個
429年太許多請求
當你返回請求的響應不能立即開始運行。就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。
實現數據處理和分析工作任務
你實現數據處理和分析工作流使用任務。工作是由一個或多個任務。筆記本運行,您可以創建工作任務的壇子,三角洲生活表管道,或Python, Scala,火花提交和Java應用程序。你的工作任務也可以安排磚SQL查詢,警報和儀表板創建分析和可視化,或者你可以使用印度生物技術部任務運行印度生物技術部轉換您的工作流。也支持遺留火花提交應用程序。
您還可以添加一個任務運行不同的工作的工作。這個特性允許您將一個大過程分為多個小的工作,或創建廣義模塊由多個作業可以重用。
你控製任務的執行順序通過指定的任務之間的依賴關係。您可以配置任務順序或並行運行。
運行作業交互、連續或使用觸發器的工作
您可以運行你的工作從喬布斯UI交互,API, CLI或可以運行連續的工作。你可以創建一個計劃定期運行你的工作或運行你的工作時新文件到在外部位置如Amazon S3和Azure存儲。
監測工作進展與通知
你可以接收通知當工作或任務開始,完成或失敗。你可以發送通知目的地的一個或多個電子郵件地址或係統(例如,webhook目的地或鬆弛)。看到添加電子郵件和係統工作的通知事件。
你的工作與磚計算資源的運行
磚集群和SQL的倉庫為您的工作提供的計算資源。您可以運行你的工作工作集群,一個通用的集群,或SQL倉庫:
集群是一個專用的集群工作為你的工作或個人的工作任務。你的工作可以使用集群共享的所有任務或工作時,您可以為單個任務配置集群創建或編輯一個任務。一個集群時創建的工作或工作任務的工作或任務結束的時候開始和終止。
一個通用集群是一個共享的集群,手動啟動和終止,可以由多個用戶共享和工作。
為了優化資源使用,磚建議使用集群工作為你的工作。減少等待時間集群啟動,考慮使用一個通用的集群。看到使用磚計算你們的工作。
你使用一個SQL倉庫運行磚SQL查詢等任務,儀表板或警報。您還可以使用一個SQL倉庫與印度生物技術部運行印度生物技術部轉換任務。
δ生活是什麼表?
δ住表是一個框架,簡化了ETL和流媒體數據處理。三角洲生活表為有效的攝入數據提供了內置的支持自動加載程序、SQL和Python接口,支持聲明性的實現數據轉換,並支持將數據寫入三角洲湖。你定義轉換執行數據,和δ生活表管理任務編排,集群管理、監控、數據質量和錯誤處理。
首先,明白了δ生活是什麼表?。
磚工作和三角洲的生活表
磚工作和三角洲的生活表提供一個全麵的框架構建和部署的端到端數據處理和分析工作流。
使用達美住所有攝入和轉換的數據表。使用磚工作安排的工作負載組成的單個任務或多個Lakehouse平台數據處理和分析任務,包括三角洲生活表攝入和轉換。Beplay体育安卓版本
作為一個工作流編排係統,磚工作也支持:
在觸發的基礎上運行作業,例如,安排運行工作流。
通過SQL查詢數據分析,機器學習和數據分析與筆記本,腳本,或外部庫,等等。
運行工作由單一的任務,例如,運行一個Apache火花工作打包在一個JAR。
工作流編排與Apache氣流
盡管磚建議使用磚工作編排數據工作流,您還可以使用Apache氣流管理和安排數據工作流。隨著氣流,你在Python文件中定義您的工作流,氣流管理調度和運行工作流。看到編排與Apache氣流磚工作。