管道在工作流運行一個三角洲生活表

您可以運行一個三角洲生活表管道作為數據處理工作流與數據磚的一部分工作,Apache氣流或Azure數據工廠。

工作

你可以安排多個任務在磚工作來實現數據處理的工作流程。包括三角洲表管道的工作生活,使用管道任務時創建一個工作

Apache氣流

Apache氣流是一個開源的解決方案管理和調度數據工作流。氣流將工作流表示為有向無環圖(無進取心的人)的操作。你定義一個工作流在Python文件和氣流管理調度和執行。氣流與磚的安裝和使用的信息,明白了編排與Apache氣流磚工作

δ住表管道運行作為一個氣流工作流的一部分,使用DatabricksSubmitRunOperator

需求

下麵的要求使用氣流支持三角洲生活表:

  • 氣流2.1.0版或更高版本。

  • 磚提供者包版本2.1.0的或更高版本。

例子

下麵的示例創建一個氣流DAG觸發更新的三角洲住表管道標識符8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b:

氣流進口DAGairflow.providers.databricks.operators.databricks進口DatabricksSubmitRunOperatorairflow.utils.dates進口days_agodefault_args={“主人”:“氣流”}DAG(“dlt”,start_date=days_ago(2),schedule_interval=“@once”,default_args=default_args)作為dag:opr_run_now=DatabricksSubmitRunOperator(task_id=“run_now”,databricks_conn_id=“CONNECTION_ID”,pipeline_task={“pipeline_id”:“8279 d543 - 063 c - 4 d63 - 9926 dae38e35ce8b”})

取代CONNECTION_ID的標識符氣流連接你的工作空間。

保存這個例子氣流/無進取心的人目錄,並使用氣流UI視圖和觸發器DAG。使用三角洲住表界麵查看管道更新的詳細信息。

Azure數據工廠

Azure數據工廠是一個基於雲的ETL服務,允許您編排工作流數據集成和轉換。Azure數據工廠直接支持工作流運行磚任務,包括筆記本電腦、JAR任務和Python腳本。您還可以包括一個管道在工作流通過調用三角洲生活表API從Azure數據工廠網絡活動。例如,觸發一個管道從Azure數據更新工廠:

  1. 創建一個數據工廠或打開一個現有的數據工廠。

  2. 當創建完成後,打開的頁麵數據工廠並單擊打開Azure數據工廠工作室瓷磚。Azure數據工廠用戶界麵出現。

  3. 創建一個新的Azure數據工廠管道通過選擇管道下拉菜單在Azure數據工廠工作室用戶界麵。

  4. 活動工具箱,擴大一般並拖動的網絡活動管道畫布。單擊設置選項卡並輸入以下值:

    請注意

    安全最佳實踐,當您使用自動化工具進行身份驗證,係統中,腳本和應用程序,磚屬於建議您使用個人訪問令牌服務主體而不是用戶工作區。為服務主體,創建令牌服務主體的管理令牌

    • URL:https:// < databricks-instance > / api / 2.0 /管道/ < pipeline-id > /更新

      取代< databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

      取代< pipeline-id >管道標識符。

    • 方法:選擇帖子從下拉。

    • :點擊+新。在的名字文本框中,輸入授權。在價值文本框中,輸入持票人< personal-access-token >

      取代< personal-access-token >用一個磚個人訪問令牌

    • 身體:通過額外的請求參數,輸入一個包含參數的JSON文檔。例如,開始一個更新和再加工的所有數據管道:{“full_refresh”:"真正的"}。如果沒有額外的請求參數,輸入空括號({})。

要測試Web活動,點擊調試在管道工具欄數據工廠的UI。的輸出和狀態運行,包括錯誤,顯示在輸出Azure的標簽數據工廠管道。使用三角洲住表界麵查看管道更新的詳細信息。

提示

一種常見的工作流需求是開始一個任務在完成前一個任務。因為δ生活表更新請求asynchronous-the請求返回後開始更新但在Azure數據更新完成任務之前工廠管道與依賴於三角洲住表更新必須等待更新完成。一個選項來添加一個等待更新完成直到活動網絡活動,觸發後三角洲生活表更新。直到活動:

  1. 添加一個等待活動等待更新完成配置的秒數。

  2. 添加一個Web活動後,等待活動使用三角洲生活表獲得更新的細節請求的狀態更新。的狀態在響應返回更新的當前狀態,包括是否已完成。

  3. 使用的價值狀態字段設置,直到終止條件的活動。你也可以使用設置變量的活動添加一個管道變量的基礎上狀態價值和使用這個變量的終止條件。