創建和運行數據磚的工作

本文詳細介紹如何創建和運行數據磚工作使用UI。

為工作和學習配置選項如何編輯你的現有工作,明白了配置設置磚的工作

學習如何管理和監控工作,明白了查看和管理工作

創建您的第一個工作流與磚的工作,看到快速入門

重要的

  • 你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。

  • 1000個並發任務工作空間是有限的。一個429年許多請求當你返回請求的響應不能立即開始運行。

  • 就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。

創建和運行工作使用CLI API,或者筆記本

創建一個工作

  1. 做下列之一:

    • 點擊工作圖標工作流在側邊欄,然後單擊創建工作按鈕

    • 在側邊欄中,單擊新圖標並選擇工作

    任務選項卡創建任務對話框出現。

    創建任務的屏幕
  2. 取代添加一個名稱為你的工作…對你的工作名稱。

  3. 輸入一個名稱的任務任務名稱字段。

  4. 類型下拉菜單中,選擇任務運行的類型。看到任務類型的選擇

  5. 配置任務運行的集群。在集群下拉菜單,選擇新工作的集群現有通用的集群

    • 新工作的集群:點擊編輯集群下拉菜單並完成集群配置

    • 現有通用的集群:選擇一個現有的集群中集群下拉菜單。在新頁麵中打開集群,單擊外部鏈接圖標右邊的集群名稱和描述。

    了解更多關於選擇和配置集群運行任務,明白了使用磚計算你們的工作

  6. 添加依賴庫,點擊+添加旁邊依賴庫。看到配置依賴庫

  7. 你可以為你的任務傳遞參數。每個任務類型有不同的要求,格式和傳遞參數。

    • 筆記本:點擊添加並指定每個參數的鍵和值傳遞給任務。你可以覆蓋或添加額外的參數手動運行一個任務使用用不同的參數運行工作選擇。參數設置的值筆記本電腦部件指定的關鍵參數。使用任務參數變量通過一組有限的動態值作為參數值的一部分。

    • JAR:使用json格式的字符串來指定參數的數組。這些字符串作為參數傳遞給主類的主要方法。看到配置罐工作參數

    • 火花提交任務:參數指定為一個json格式的字符串數組。符合Apache火花spark-submit慣例,參數在JAR的路徑傳遞給主類的主要方法。

    • Python腳本:使用json格式的字符串來指定參數的數組。這些字符串作為參數傳遞,可以解析使用argparse在Python模塊。

    • Python輪:在參數下拉菜單,選擇位置參數輸入參數作為json格式的字符串數組,或選擇關鍵字參數>添加進入每個參數的鍵和值。這兩個位置參數和關鍵字參數都作為命令行參數傳遞給Python輪任務。

  8. 為任務開始有選擇地接收通知,成功,或失敗,點擊+添加旁邊電子郵件。通知發送初始任務失敗和任何後續重試。過濾通知和減少發送的電子郵件數量,檢查靜音運行跳過的通知,沉默的通知取消,或沉默的通知到最後重試

  9. 可選配置重試策略的任務,點擊+添加旁邊重試。看到配置重試策略

  10. 可選配置的預期持續時間或超時任務,點擊+添加旁邊時間閾值。看到配置一個預計完成時間或超時任務

  11. 點擊創建

創建第一個任務後,您可以配置工作水平設置,如通知、工作觸發器和權限。看到編輯的工作

添加另一個任務,點擊添加任務按鈕在DAG視圖中。一個共享的集群選項如果您配置了一個提供新工作的集群前一個任務。您還可以配置一個集群為每個任務當您創建或編輯一個任務。了解更多關於選擇和配置集群運行任務,明白了使用磚計算你們的工作

任務類型的選擇

以下是可以添加到你的磚工作任務類型和可用的選項不同的任務類型:

  • 筆記本:在下拉菜單,選擇一個筆記本的位置;要麼工作空間對於一個筆記本或位於一個磚工作區文件夾Git提供者筆記本位於一個偏遠的Git存儲庫。

    工作空間:使用文件瀏覽器找到筆記本,點擊筆記本名稱,點擊確認

    Git提供者:點擊編輯並輸入Git存儲庫信息。看到用筆記本從遠程Git存儲庫

    請注意

    筆記本電池總產量(合並後輸出的筆記本電池)20 mb的大小限製。此外,單個細胞輸出8 mb大小限製。如果電池總產量超過20 mb,或者單個細胞的輸出大於8 mb,運行是取消,標記為失敗。

    如果你需要幫助找到細胞接近或超出了限製,筆記本和一個通用的集群運行和使用筆記本自動保存技術

  • JAR:指定主類。使用類的完全限定名稱包含的主要方法,例如,org.apache.spark.examples.SparkPi。然後單擊添加依賴庫添加庫才能運行這個任務。這些庫必須包含主類之一。

    了解更多關於JAR任務,明白了用一罐磚的工作

  • 火花提交:在參數文本框,指定主類,庫JAR的路徑,和所有參數,格式化為JSON字符串的數組。下麵的示例配置spark-submit任務運行DFSReadWriteTest從Apache火花的例子:

    (”——階級”,“org.apache.spark.examples.DFSReadWriteTest”,“dbfs: / FileStore /圖書館/ spark_examples_2_12_3_1_1.jar”,“/ dbfs / databricks-datasets / README.md”,“/ FileStore / /輸出例子/”]

    重要的

    有幾個限製spark-submit任務:

    • 您可以運行spark-submit任務隻有在新的集群。

    • Spark-submit不支持集群自動定量。學習更多關於自動定量,明白了集群自動定量

    • Spark-submit不支持磚公用事業。使用磚工具,使用JAR任務。

    • 如果您使用的是統一Catalog-enabled集群,spark-submit隻有集群使用分配的支持訪問模式。不支持共享訪問模式。

    • 火花流工作不應該最大並發運行設置為大於1。流工作應該設置為使用cron運行表達式“*****?”(每分鍾)。由於連續流運行任務,這應該是最後一項任務的工作。

  • Python腳本:在下拉,選擇一個Python腳本的位置工作空間腳本在本地工作區,DBFS腳本位於DBFS,或Git提供者腳本位於一個Git倉庫。在路徑文本框中,輸入Python腳本的路徑:

    工作空間:在選擇Python文件並單擊對話框中,瀏覽到Python腳本確認。必須在您的腳本磚回購

    DBFS:輸入一個Python腳本的URI DBFS和雲存儲;例如,dbfs: / FileStore / myscript.py

    Git提供者:點擊編輯並輸入Git存儲庫信息。看到使用Python代碼從一個遠程Git存儲庫

  • 三角洲生活表管道:在管道下拉菜單,選擇一個已存在的三角洲生活表管道。

    重要的

    你隻可以使用管道的觸發管道的任務。不支持連續管道的工作任務。更多地了解和連續管道引起的,看到的連續與管道執行觸發

  • Python輪:在包名文本框,輸入包導入,例如,mywheel - 1.0 - py2.py3 any.whl——沒有。在入口點文本框中,輸入函數調用時開始。點擊添加依賴庫添加庫才能運行這個任務。

  • SQL:在SQL任務下拉菜單,選擇查詢,指示板,警報,或文件

    請注意

    查詢:在SQL查詢下拉菜單中,選擇查詢時所執行的任務。

    指示板:在SQL儀表板下拉菜單,選擇一個儀表盤更新任務運行時。

    警報:在SQL警告下拉菜單中,選擇警報觸發進行評估。

    文件:在下拉菜單,選擇Git提供者,點擊編輯添加一個git參考Git存儲庫,並輸入細節。看到從一個遠程Git存儲庫使用SQL查詢

    SQL倉庫下拉菜單,選擇一個serverless或支持SQL倉庫運行的任務。

  • 印度生物技術部:看在磚使用印度生物技術部轉換工作對於一個詳細示例如何配置一個印度生物技術部的任務。

  • 運行工作:在工作下拉菜單中,選擇一份工作運行的任務。搜索工作運行,開始打字的工作名稱工作菜單。

    重要的

    你不應該使用時創造就業與循環依賴運行工作任務或工作超過三個築巢運行工作任務。循環依賴關係運行工作任務,直接或間接地引發對方。例如,工作一個觸發器工作B和B觸發器工作工作A .磚不支持的工作循環依賴或巢超過三個運行工作任務,可能在將來的版本中不允許運行這些工作。

複製一個任務路徑

特定任務類型,例如,筆記本的任務,允許你複製任務源代碼的路徑:

  1. 單擊任務選項卡。

  2. 選擇包含路徑複製的任務。

  3. 點擊工作副本圖標接下來的任務路徑複製路徑到剪貼板。

創建一個工作從現有的工作

您可以快速創建一個新的工作通過克隆現有工作。克隆的工作創造了一個相同的拷貝工作,除了ID的工作。在工作的頁麵中,點擊更多的…旁邊的名字並選擇的工作克隆從下拉菜單中。

創建一個任務從現有的任務

你可以快速創建一個新的任務通過克隆現有的任務:

  1. 在工作的頁麵中,單擊任務選項卡。

  2. 克隆選擇任務。

  3. 點擊喬布斯垂直省略並選擇克隆的任務

刪除一個工作

刪除一個工作,在工作的頁麵中,點擊更多的…旁邊的名字並選擇的工作刪除從下拉菜單中。

刪除一個任務

刪除一個任務:

  1. 單擊任務選項卡。

  2. 選擇要刪除的任務。

  3. 點擊喬布斯垂直省略並選擇刪除任務

運行工作

  1. 點擊工作圖標工作流在側邊欄。

  2. 選擇一份工作並單擊運行選項卡。您可以運行工作運行後立即或調度的工作。

如果一個或多個任務的工作與多個任務不成功,您可以重新運行失敗的任務的一部分。看到重新運行失敗,跳過任務

立即運行工作

立即運行任務,點擊現在運行按鈕

提示

您可以執行測試運行工作的任務通過點擊一個筆記本現在運行。如果你需要更改筆記本,點擊現在運行後再編輯筆記本將自動運行新版本的筆記本。

用不同的參數運行工作

您可以使用現在有了不同的參數運行重新運行工作與不同的參數或不同的現有參數的值。

  1. 點擊藍色向下插入符號旁邊現在運行並選擇現在有了不同的參數運行或者,在活躍的運行表,點擊現在有了不同的參數運行。輸入新的參數取決於任務的類型。

    • 筆記本:您可以輸入參數鍵值或一個JSON對象。提供的參數與默認參數觸發運行。您可以使用該對話框中設置的值小部件

    • JARspark-submit:您可以輸入一個參數列表或一個JSON文檔。如果你刪除鍵,使用默認參數。你也可以加入任務參數變量運行。

  2. 點擊運行

運行一個服務主體的工作

預覽

這個特性是在公共預覽

默認情況下,工作作為工作的主人的身份運行。這意味著工作假設工作的所有者的權限。這項工作隻能訪問數據和磚工作所有者權限訪問的對象。你可以改變身份,工作運行服務主體。然後,假設工作服務主體的權限,而不是所有者。工作區管理員的身份也可以改變到另一個用戶運行的工作是在工作區中。

改變運行設置你需要的可以管理是老板工作許可。用戶可以設置工作區運行設置為自己或任何服務主體在工作區中,他們有服務主體的用戶的角色。工作區管理員可以設置運行設置任何工作區用戶或任何服務主體在工作區中,他們有服務主體的用戶的角色。有關更多信息,請參見用於管理服務主體的角色工作訪問控製

改變運行領域,請執行以下操作:

  1. 在側邊欄中,單擊工作圖標工作流

  2. 的名字列,單擊工作名稱。

  3. 工作細節側板,點擊旁邊的鉛筆圖標運行字段。

  4. 搜索和選擇服務主體。

  5. 點擊保存

您還可以列出你的服務主體用戶使用工作空間層SCIM API的角色。有關更多信息,請參見列出可以使用的服務主體

運行安排一份工作

您可以使用一個安排在指定的時間自動運行磚的工作和時間。看到添加一個工作進度表

運行一個連續工作

你可以確保你的工作總是有一個活躍的運行。看到運行一個連續工作

當得到新的文件運行工作

觸發工作運行當新的文件到一個外部位置,使用文件到達觸發