喬布斯API 2.0

就業API允許您創建、編輯和刪除工作。一個請求到工作的最大允許大小API是10 mb。

對細節的更新工作API,支持多個任務的編排與磚工作,明白了喬布斯API更新

警告

千萬不要硬編碼秘密或者存儲在純文本。使用秘密的API管理的秘密磚CLI。使用秘密效用(dbutils.secrets)引用在筆記本和工作秘密。

請注意

如果你收到一個500級的錯誤做喬布斯API請求時,磚建議重試請求10分鍾(重試之間至少30秒時間間隔)。

重要的

訪問數據磚REST api,你必須進行身份驗證

創建

端點

HTTP方法

2.0 / /創建工作

帖子

創建一個新工作。

例子

這個示例創建一個工作運行JAR任務10:15pm每晚。

請求

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/創建\——數據@create-job.json\|金橋。

create-job.json:

{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:3600年,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • 的內容create-job.json與字段,適合您的解決方案。

這個示例使用. netrc文件和金橋

響應

{“job_id”:1}

請求結構

重要的

  • 當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。

  • 當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。

字段名

類型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。

如果new_cluster,集群的描述將被創建為每個運行。

如果指定一個PipelineTask,這個領域可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。

如果spark_jar_task,表明這項工作應該運行一個罐子裏。

如果spark_python_task,表明這項工作應該運行Python文件。

如果spark_submit_task,表明這項工作應該發起的火花提交腳本。

如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。

如果run_job_task,表明這項工作應該運行另一份工作。

的名字

字符串

一個可選的名字。默認值是無標題的

一個數組的圖書館

一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。

email_notifications

JobEmailNotifications

一組可選的電子郵件地址通知當運行這個工作開始和完成時,這項工作被刪除。默認行為是不發送任何電子郵件。

webhook_notifications

WebhookNotifications

一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。

notification_settings

JobNotificationSettings

使用可選的通知設置在發送通知的email_notificationswebhook_notifications對於這個工作。

timeout_seconds

INT32

一個可選的超時應用於每次運行的工作。默認行為是沒有超時。

max_retries

INT32

一個可選的最大重試失敗的次數。跑步被認為是不成功的,如果它完成的失敗的result_state或INTERNAL_ERRORlife_cycle_state。值1的意思是無限期重試,值0意味著永不重試。默認行為是不重試。

min_retry_interval_millis

INT32

之間的一個可選的最小間隔時間以毫秒為單位的失敗和隨後的重試跑。默認行為是成功運行立即重試。

retry_on_timeout

BOOL

一個可選的策略來指定是否重試時超時工作。默認行為是在超時不重試。

時間表

CronSchedule

一個可選的周期安排這項工作。默認行為是工作運行時通過點擊觸發現在運行在工作界麵或發送一個API請求runNow

max_concurrent_runs

INT32

一個可選的最大允許並發運行的作業的數量。

設置這個值,如果你希望能夠執行多個並發運行相同的作業。這是有用的,例如如果你頻繁觸發你的工作在一個計劃,希望允許連續運行相互重疊,或如果你想觸發多個運行不同的輸入參數。

這個設置隻影響新的運行。例如,假設工作的並發是4和有4個並發活動。然後設置並發3不會殺死任何活動運行的。然而,從那時起,新的運行跳過除非有少於3活躍。

這個值不能超過1000。這個值設置為0會引起新的運行跳過。默認行為是隻允許1並發運行。

響應結構

字段名

類型

描述

job_id

INT64

規範標識符為新創建的工作。

列表

端點

HTTP方法

2.0 /工作/列表

得到

列出所有工作。

例子

請求

curl——netrc請求\https:// < databricks-instance > / api / 2.0 /工作/列表\|金橋。

取代< databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件和金橋

響應

{“工作”:({“job_id”:1,“設置”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}]}

響應結構

字段名

類型

描述

工作

一個數組的工作

工作列表。

刪除

端點

HTTP方法

2.0 /工作/刪除

帖子

刪除一個工作,發送一封電子郵件到指定的地址JobSettings.email_notifications。如果發生任何行動工作已經被移除。工作是刪除之後,它的細節和其運行的曆史是可見的UI或API的工作。這份工作是保證完成這個請求刪除。然而,運行前活動收到這個請求可能仍然是活躍的。他們將終止異步。

例子

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/刪除\——數據”{“job_id”: <作業id >}’

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <作業id >例如,與工作的ID123年

這個示例使用. netrc文件。

請求結構

字段名

類型

描述

job_id

INT64

工作的規範標識符刪除。這個字段是必需的。

得到

端點

HTTP方法

2.0 /工作/

得到

檢索信息的一個工作。

例子

請求

curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/ ? job_id = <作業id > '\|金橋。

或者:

curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/\——數據job_id=<作業id >\|金橋。

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <作業id >例如,與工作的ID123年

這個示例使用. netrc文件和金橋

響應

{“job_id”:1,“設置”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}

請求結構

字段名

類型

描述

job_id

INT64

工作的規範標識符檢索信息。這個字段是必需的。

響應結構

字段名

類型

描述

job_id

INT64

這個工作的規範標識符。

creator_user_name

字符串

造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除。

設置

JobSettings

和它的所有運行設置這個工作。這些設置可以更新使用重置更新端點。

created_time

INT64

這個工作的時間成立於時代毫秒(毫秒因為1/1/1970 UTC)。

重置

端點

HTTP方法

2.0 /工作/重置

帖子

覆蓋所有設置為一個特定的工作。使用更新端點設置部分更新工作。

例子

這個示例請求使工作2相同的工作1創建的例子。

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/重置\——數據@reset-job.json\|金橋。

reset-job.json:

{“job_id”:2,“new_settings”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • 的內容reset-job.json與字段,適合您的解決方案。

這個示例使用. netrc文件和金橋

請求結構

字段名

類型

描述

job_id

INT64

工作的規範標識符重置。這個字段是必需的。

new_settings

JobSettings

新設置的工作。這些設置完全取代舊的設置。

修改字段JobSettings.timeout_seconds應用於活躍的運行。更改其他領域應用於未來隻運行。

更新

端點

HTTP方法

2.0 /工作/更新

帖子

添加、更改或刪除現有工作的特定設置。使用重置端點覆蓋所有工作設置。

例子

這個示例請求添加庫和刪除電子郵件通知設置中定義的工作1創建的例子。

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/更新\——數據@update-job.json\|金橋。

update-job.json:

{“job_id”:1,“new_settings”:{“existing_cluster_id”:“1201 -我的集群”,“email_notifications”:{“on_start”:(“someone@example.com”),“on_success”:[],“on_failure”:[]}},“fields_to_remove”:(“庫”]}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • 的內容update-job.json與字段,適合您的解決方案。

這個示例使用. netrc文件和金橋

請求結構

場的

類型

描述

job_id

INT64

規範標識符的更新工作。這個字段是必需的。

new_settings

JobSettings

新設置的工作。任何頂級字段中指定new_settings完全取代。不支持嵌套部分更新字段。

修改字段JobSettings.timeout_seconds應用於活躍的運行。更改其他領域應用於未來隻運行。

fields_to_remove

一個數組的字符串

刪除頂級字段設置的工作。移除不支持嵌套的字段。這個字段是可選的。

現在運行

重要的

  • 你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。

  • 1000個並發任務工作空間是有限的。一個429年許多請求當你返回請求的響應不能立即開始運行。

  • 就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。

端點

HTTP方法

2.0 /工作/運行

帖子

現在運行工作並返回run_id引發的運行。

提示

如果您調用創建在一起現在運行,你可以使用運行提交端點相反,它允許您直接提交你的工作負載,而無需創建一個工作。

例子

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行\——數據@run-job.json\|金橋。

run-job.json:

一個示例請求一個筆記本工作:

{“job_id”:1,“notebook_params”:{“名稱”:“john doe”,“年齡”:“35”}}

請求一個例子為一罐工作:

{“job_id”:2,“jar_params”:(“john doe”,“35”]}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • 的內容run-job.json與字段,適合您的解決方案。

這個示例使用. netrc文件和金橋

請求結構

字段名

類型

描述

job_id

INT64

jar_params

一個數組的字符串

參數的工作與JAR任務列表,如“jar_params”:["約翰母鹿”,“35”)。參數將用於調用中指定的主類的主要功能火花JAR任務。如果未指定現在,它將默認為一個空列表。jar_params不能結合notebook_params指定。這個字段(即的JSON表示。{“jar_params”:["約翰母鹿”、“35”)})不能超過10000個字節。

notebook_params

的地圖ParamPair

與筆記本從鍵值映射工作任務,如。“notebook_params”:{" name ":“約翰母鹿”,“年齡”:“35”}。地圖被傳遞到筆記本,可以通過dbutils.widgets.get函數。

如果未指定現在,觸發運行使用工作的基礎參數。

你不能指定notebook_params結合jar_params。

這個字段(即的JSON表示。{" notebook_params ":{“名稱”:“約翰母鹿”、“年齡”:“35”}})不能超過10000個字節。

python_params

一個數組的字符串

與Python任務工作的參數列表,如“python_params”:["約翰母鹿”,“35”)。參數將被傳遞給Python文件作為命令行參數。如果指定在現在,它將覆蓋工作設置中指定的參數。這個字段(即的JSON表示。{“python_params”:["約翰母鹿”、“35”)})不能超過10000個字節。

spark_submit_params

一個數組的字符串

工作引發的參數列表提交的任務,例如“spark_submit_params”:["——階級”,“org.apache.spark.examples.SparkPi”)。將參數傳遞給腳本spark-submit作為命令行參數。如果指定在現在,它將覆蓋工作設置中指定的參數。這一領域的JSON表示不能超過10000個字節。

idempotency_token

字符串

一個可選的標記來保證工作運行的冪等性請求。如果運行提供的令牌已經存在,請求不創建一個新的運行但回報現有運行的ID。如果運行提供的令牌被刪除,返回一個錯誤。

如果你指定冪等性標記,當失敗的時候你可以重試,直到請求成功。磚保證啟動一個運行與冪等性令牌。

這個令牌必須有最多64個字符。

例如,“idempotency_token”:“123”

響應結構

字段名

類型

描述

run_id

INT64

新觸發運行的全球惟一的ID。

number_in_job

INT64

序列號的運行在所有的運行工作。

運行提交

重要的

  • 你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。

  • 1000個並發任務工作空間是有限的。一個429年許多請求當你返回請求的響應不能立即開始運行。

  • 就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。

端點

HTTP方法

2.0 /工作/運行/提交

帖子

提交一次運行。這個端點允許你提交一個工作負載直接創建一個工作。使用工作/運行/API來檢查工作提交後的運行狀態。

例子

請求

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行/提交\——數據@submit-job.json\|金橋。

submit-job.json:

{“run_name”:“我的任務”火花,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • 的內容submit-job.json與字段,適合您的解決方案。

這個示例使用. netrc文件和金橋

響應

{“run_id”:123年}

請求結構

重要的

  • 當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。

  • 當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。

字段名

類型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。

如果new_cluster,集群的描述將被創建為每個運行。

如果指定一個PipelineTask,那麼這個字段可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。

如果spark_jar_task,表明這項工作應該運行一個罐子裏。

如果spark_python_task,表明這項工作應該運行Python文件。

如果spark_submit_task,表明這項工作應該發起的火花提交腳本。

如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。

如果run_job_task,表明這項工作應該運行另一份工作。

run_name

字符串

一個可選的名稱。默認值是無標題的

webhook_notifications

WebhookNotifications

一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。

notification_settings

JobNotificationSettings

使用可選的通知設置在發送通知的webhook_notifications運行。

一個數組的圖書館

一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。

timeout_seconds

INT32

一個可選的超時應用於每次運行的工作。默認行為是沒有超時。

idempotency_token

字符串

一個可選的標記來保證工作運行的冪等性請求。如果運行提供的令牌已經存在,請求不創建一個新的運行但回報現有運行的ID。如果運行提供的令牌被刪除,返回一個錯誤。

如果你指定冪等性標記,當失敗的時候你可以重試,直到請求成功。磚保證啟動一個運行與冪等性令牌。

這個令牌必須有最多64個字符。

例如,“idempotency_token”:“123”

響應結構

字段名

類型

描述

run_id

INT64

規範標識符為新提交的運行。

運行清單

端點

HTTP方法

2.0 /工作/運行/列表

得到

運行在開始時間降序排列的列表。

請注意

運行之後自動刪除60天。如果你想引用它們超出60天,到期前你應該保存古老的運行結果。出口使用UI,明白了出口工作運行結果。出口使用工作API,明白了經營出口

例子

請求

curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/列表? job_id = <作業id > &active_only = <是非題>抵消= <抵消>限製= <限製> &run_type = < run-type > '\|金橋。

或者:

curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/列表\——數據“job_id = <作業id > &active_only = <是非題>抵消= <抵消>限製= <限製> &run_type = < run-type > '\|金橋。

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <作業id >例如,與工作的ID123年

  • 《是非題》真正的

  • <抵消>抵消價值。

  • <限製>限製價值。

  • < run-type >run_type價值。

這個示例使用. netrc文件和金橋

響應

{“運行”:({“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“運行”,“state_message”:“執行動作”},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ donald@duck.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”}),“has_more”:真正的}

請求結構

字段名

類型

描述

active_onlycompleted_only

BOOLBOOL

如果active_only真正的,僅包括活躍的運行結果;否則,列出活動和運行完成。一個活躍的是跑等待,運行,或終止RunLifecycleState。該字段不能真正的當completed_only真正的

如果completed_only真正的,隻有完成中包括運行結果;否則,列出活動和運行完成。該字段不能真正的當active_only真正的

job_id

INT64

的工作運行。如果省略,就業服務將從所有工作列表。

抵消

INT32

第一次運行返回的抵消,相對於最近的運行。

限製

INT32

跑到返回的數量。這個值應大於0小於1000。默認值是20。如果請求指定的極限0,最大限度的服務將使用。

run_type

字符串

跑到返回的類型。運行類型的描述,請參閱運行

響應結構

字段名

類型

描述

運行

一個數組的運行

運行的一個列表,從最近的開始。

has_more

BOOL

如果這是真的,額外的匹配濾波器可用於提供清單。

運行得到

端點

HTTP方法

2.0 /工作/運行/

得到

檢索的元數據。

請注意

運行之後自動刪除60天。如果你想引用它們超出60天,到期前你應該保存古老的運行結果。出口使用UI,明白了出口工作運行結果。出口使用工作API,明白了經營出口

例子

請求

curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/ ? run_id = <運行id > '\|金橋。

或者:

curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/\——數據run_id=<運行id >\|金橋。

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <運行id >例如,與運行的ID123年

這個示例使用. netrc文件和金橋

響應

{“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“運行”,“state_message”:“執行動作”},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”}

請求結構

字段名

類型

描述

run_id

INT64

規範標識符的運行檢索元數據。這個字段是必需的。

響應結構

字段名

類型

描述

job_id

INT64

規範標識符包含這個運行的工作。

run_id

INT64

規範化運行的標識符。這個ID是獨特的在所有運行的所有工作。

number_in_job

INT64

序列號的運行在所有的運行工作。這個值從1開始。

original_attempt_run_id

INT64

如果這是之前運行的重試嚐試運行,該字段包含原文的run_id嚐試;否則,它是run_id一樣。

狀態

RunState

運行的結果和生命周期狀態。

時間表

CronSchedule

觸發這個運行的cron調度如果是引發的周期性調度程序。

任務

JobTask

執行的任務運行,如果任何。

cluster_spec

ClusterSpec

工作的快照的集群規範這個運行時創建的。

cluster_instance

ClusterInstance

集群用於此運行。如果指定運行使用一個新的集群,這一領域將一旦就業服務請求的集群運行。

overriding_parameters

RunParameters

用於此運行的參數。

start_time

INT64

這種運行成立於時代的時間毫秒(毫秒因為1/1/1970 UTC)。這可能不是工作任務的時候開始執行,例如,如果工作是計劃一個新的集群上運行,這是集群創建調用的時間。

end_time

INT64

這個跑在時代結束毫秒的時間(單位為毫秒自1/1/1970 UTC)。這個字段將被設置為0,如果工作仍在運行。

setup_duration

INT64

時間以毫秒為單位設置集群。運行,運行在新集群的集群創建時間,運行現有的集群上運行這個時間應該很短。總運行時間的總和setup_duration,execution_duration,cleanup_duration。的setup_duration字段設置為0多任務工作運行。多任務工作運行的總時間的價值run_duration字段。

execution_duration

INT64

的時間,以毫秒為單位執行JAR中的命令或筆記本,直到他們完成,失敗了,超時,被取消,或者遇到了一個意想不到的錯誤。總運行時間的總和setup_duration,execution_duration,cleanup_duration。的execution_duration字段設置為0多任務工作運行。多任務工作運行的總時間的價值run_duration字段。

cleanup_duration

INT64

以毫秒為單位的時間花了終止集群和清理任何相關的工件。總運行時間的總和setup_duration,execution_duration,cleanup_duration。的cleanup_duration字段設置為0多任務工作運行。多任務工作運行的總時間的價值run_duration字段。

run_duration

INT64

時間以毫秒為單位的工作運行和它的所有維修完成。這個字段隻設置運行,而不是任務運行多任務工作。一個任務運行的時間的總和setup_duration,execution_duration,cleanup_duration

觸發

TriggerType

觸發發射這個運行的類型。

creator_user_name

字符串

造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除

run_page_url

字符串

運行的詳細信息頁麵的URL。

經營出口

端點

HTTP方法

2.0 /工作/運行/出口

得到

出口和檢索工作運行的任務。

請注意

隻能出口筆記本運行在HTML格式。出口的其他類型將會失敗。

例子

請求

curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/出口? run_id = <運行id > '\|金橋。

或者:

curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/出口\——數據run_id=<運行id >\|金橋。

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <運行id >例如,與運行的ID123年

這個示例使用. netrc文件和金橋

響應

{“視圖”:({“內容”:“< !html DOCTYPE html > < > < >負責人< /頭> <身體> < /身體> < / html >”,“名稱”:“我的筆記本”,“類型”:“筆記本”}]}

從JSON響應中提取的HTML的筆記本,下載並運行Python腳本

請注意

筆記本的身體__DATABRICKS_NOTEBOOK_MODEL對象是編碼。

請求結構

字段名

類型

描述

run_id

INT64

規範標識符。這個字段是必需的。

views_to_export

ViewsToExport

這觀點出口(代碼、儀表板或全部)。默認的代碼。

響應結構

字段名

類型

描述

的觀點

一個數組的ViewItem

在HTML格式導出的內容(一個為每個視圖條目)。

取消運行

端點

HTTP方法

2.0 /工作/運行/取消

帖子

取消工作運行。因為取消了異步運行,運行這個請求完成時可能仍在運行。運行不久將被終止。如果已經在一個終端運行life_cycle_state,這個方法是一個空操作。

這個端點確認run_id參數是有效的和無效的參數返回HTTP狀態代碼400。

例子

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行/取消\——數據”{“run_id”: <運行id >}’

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <運行id >例如,與運行的ID123年

這個示例使用. netrc文件。

請求結構

字段名

類型

描述

run_id

INT64

規範標識符的取消。這個字段是必需的。

取消所有運行

端點

HTTP方法

2.0 /工作/運行/取消所有

帖子

取消所有活動的工作。因為取消了異步運行,它不會阻止新的運行開始。

這個端點確認job_id參數是有效的和無效的參數返回HTTP狀態代碼400。

例子

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行/取消所有\——數據”{“job_id”: <作業id >}’

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <作業id >例如,與工作的ID123年

這個示例使用. netrc文件。

請求結構

字段名

類型

描述

job_id

INT64

規範化作業取消所有運行的標識符。這個字段是必需的。

運行得到的輸出

端點

HTTP方法

2.0 /工作/運行/輸出

得到

檢索一個任務的輸出和元數據。當一個筆記本任務通過返回一個值dbutils.notebook.exit ()電話,您可以使用該端點來檢索該值。磚限製這個API返回的輸出的第一個5 MB。對於返回一個更大的結果,您可以工作結果存儲在雲存儲服務。

這個端點確認run_id參數是有效的和無效的參數返回HTTP狀態代碼400。

運行之後自動刪除60天。如果你想引用它們超出60天,到期前你應該保存古老的運行結果。出口使用UI,明白了出口工作運行結果。出口使用工作API,明白了經營出口

例子

請求

curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/輸出? run_id = <運行id > '\|金橋。

或者:

curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/輸出\——數據run_id=<運行id >\|金橋。

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <運行id >例如,與運行的ID123年

這個示例使用. netrc文件和金橋

響應

{“元數據”:{“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“終止”,“result_state”:“成功”,“state_message”:”“},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”},“notebook_output”:{“結果”:“也許截斷字符串傳遞給dbutils.notebook.exit ()}}

請求結構

字段名

類型

描述

run_id

INT64

規範標識符。找工作與mulitple任務,這是run_id任務的運行。看到運行得到的輸出。這個字段是必需的。

響應結構

字段名

類型

描述

notebook_output錯誤

NotebookOutput字符串

如果notebook_output,筆記本的輸出任務,如果可用。一個筆記本任務終止(成功或失敗)沒有打電話dbutils.notebook.exit ()被認為有一個空的輸出。該字段將被設置,但其結果值將是空的。

如果錯誤,一個錯誤消息指示輸出不可用的原因。非結構化信息,和它的確切格式都可能發生變化。

元數據

運行

所有的細節除了運行它的輸出。

運行刪除

端點

HTTP方法

2.0 /工作/運行/刪除

帖子

刪除一個穩定的運行。返回一個錯誤如果運行活動。

例子

curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行/刪除\——數據”{“run_id”: <運行id >}’

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

  • <運行id >例如,與運行的ID123年

這個示例使用. netrc文件。

請求結構

字段名

類型

描述

run_id

INT64

規範標識符的運行檢索元數據。

數據結構

自動定量

集群範圍定義的最小和最大數量的工人。

字段名

類型

描述

min_workers

INT32

工人的最低數量的集群可以縮小時沒有得到充分的利用。這也是最初的工人數量集群創建後。

max_workers

INT32

工人的最大數量的集群可以擴大當超載。必須嚴格大於min_workers max_workers。

ClusterInstance

集群和火花上下文標識符使用的運行。這兩個值一起識別執行上下文的所有時間。

字段名

類型

描述

cluster_id

字符串

規範標識符使用的集群運行。這個領域一直是用於現有的集群上運行。新的集群上運行,它可用一次創建集群。這個值可以用來查看日誌通過瀏覽/ / sparkui / $ cluster_id / driver-logs #設置。可用的日誌將繼續運行完成後。

響應不包括這個領域如果還沒有可用的標識符。

spark_context_id

字符串

規範標識符使用的上下文。這個領域將填寫一旦運行開始執行。這個值可以用來查看火花UI通過瀏覽/ #設置/ sparkui / cluster_id / spark_context_id美元。火花UI將繼續在運行完成後可用。

響應不包括這個領域如果還沒有可用的標識符。

ClusterLogConf

集群日誌路徑。

字段名

類型

描述

DbfsStorageInfo

DBFS集群日誌的位置。必須提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / cluster_log”}}

ClusterSpec

重要的

  • 當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。

  • 當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。

字段名

類型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。

如果new_cluster,集群的描述將被創建為每個運行。

如果指定一個PipelineTask,那麼這個字段可以是空的。

一個數組的圖書館

一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。

ClusterTag

集群標簽定義。

CronSchedule

字段名

類型

描述

quartz_cron_expression

字符串

一個Cron表達式使用石英語法描述安排一份工作。看到Cron觸發獲取詳細信息。這個字段是必需的。

timezone_id

字符串

Java時區ID。工作時間表將會解決關於這個時區。看到Java時區獲取詳細信息。這個字段是必需的。

pause_status

字符串

指示是否這個計劃暫停。“暫停”或“停頓”。

DbfsStorageInfo

DBFS存儲信息。

字段名

類型

描述

目的地

字符串

DBFS目的地。例子:dbfs: /我/路徑

FileStorageInfo

文件存儲信息。

請注意

這個位置類型隻能為集群設置使用磚容器服務

字段名

類型

描述

目的地

字符串

文件的目的地。例子:文件:/我/ file.sh

GCSStorageInfo

穀歌雲存儲(GCS)存儲信息。

字段名

類型

描述

目的地

字符串

文件的目的地。例子:g: / /……

穀歌雲屬性

屬性設置集群創建期間有關穀歌雲。

字段名

類型

描述

use_preemptible_executors

BOOL

使用搶占的執行人。

google_service_account

字符串

集群使用穀歌服務帳戶的電子郵件地址與穀歌身份驗證。這個字段用於身份驗證的GCSBigQuery數據源。

boot_disk_size

INT32

大小,以GB磁盤的分配給每個實例。這個值必須在100 - 4096之間。

重要的

使用與GCS和BigQuery穀歌服務帳戶,你使用訪問數據源必須位於同一個項目時指定的SA建立你的磚賬戶。

InitScriptInfo

一個init腳本。

請注意

文件存儲類型(字段名:文件)隻能用於集群設置使用磚容器服務。看到FileStorageInfo

字段名

類型

描述

工作空間dbfs(棄用)

gcs

WorkspaceStorageInfo

DbfsStorageInfo(棄用)

GCSStorageInfo

init腳本的工作區位置。必須提供目的地。例如,{“工作區”:{“目的地”:“/用戶/ someone@domain.com/init_script.sh”}}

(棄用)DBFS init腳本的位置。必須提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / init_script”}}

穀歌雲存儲(GCS) init腳本的位置。必須提供目的地。例如,{“gs”:{“目的地”:“gs: / /……”}}

工作

字段名

類型

描述

job_id

INT64

這個工作的規範標識符。

creator_user_name

字符串

造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除。

run_as

字符串

用戶名,作業將運行。run_as是基於當前的工作設置,並將工作,如果工作的創造者訪問控製被禁用,或者是嗎is_owner如果啟用了訪問控製工作許可。

設置

JobSettings

和它的所有運行設置這個工作。這些設置可以更新使用resetJob方法。

created_time

INT64

這個工作的時間成立於時代毫秒(毫秒因為1/1/1970 UTC)。

JobEmailNotifications

重要的

on_start, on_success和on_failure字段隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。

字段名

類型

描述

on_start

一個數組的字符串

電子郵件地址的列表通知運行時就開始了。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。

on_success

一個數組的字符串

電子郵件地址的列表成功運行完成時得到通知。跑步被認為是成功完成如果結尾終止life_cycle_state和一個成功的result_state。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。

on_failure

一個數組的字符串

電子郵件地址的列表通知運行時沒有成功完成。跑步被認為已經完成了如果它以一個失敗INTERNAL_ERRORlife_cycle_state或者一個跳過,失敗的,或TIMED_OUTresult_state。如果不指定這個值在創造就業方麵,重置,或更新列表為空,不發送通知。

on_duration_warning_threshold_exceeded

一個數組的字符串

一個被通知的電子郵件地址列表當運行的持續時間超過指定的閾值RUN_DURATION_SECONDS規的健康字段。如果沒有規則的RUN_DURATION_SECONDS度量中指定健康領域的工作,不發送通知。

no_alert_for_skipped_runs

BOOL

如果這是真的,不發送電子郵件收件人中指定on_failure如果運行跳過。

字段名

類型

描述

on_start

一個數組的Webhook

一個可選列表係統目的地運行開始時得到通知。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地on_start財產。

on_success

一個數組的Webhook

一個可選列表係統目的地運行成功完成時得到通知。跑步被認為是成功完成如果結尾終止life_cycle_state和一個成功的result_state。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地on_success財產。

on_failure

一個數組的Webhook

一個可選的係統的目的地列表完成運行失敗時得到通知。跑步被認為已經完成了如果它以一個失敗INTERNAL_ERRORlife_cycle_state或者一個跳過,失敗的,或TIMED_OUTresult_state。如果不指定這個值在創造就業方麵,重置,或更新列表為空,不發送通知。最多3可以指定的目的地on_failure財產。

on_duration_warning_threshold_exceeded

一個數組的Webhook

一個可選的通知係統的目的地列表當運行的持續時間超過指定的閾值RUN_DURATION_SECONDS規的健康字段。最多3可以指定的目的地on_duration_warning_threshold_exceeded財產。

JobNotificationSettings

字段名

類型

描述

no_alert_for_skipped_runs

BOOL

如果這是真的,不發送通知中指定的收件人on_failure如果運行跳過。

no_alert_for_canceled_runs

BOOL

如果這是真的,不發送通知中指定的收件人on_failure如果運行的是取消了。

alert_on_last_attempt

BOOL

如果這是真的,不發送通知中指定的收件人on_start重試運行和不發送通知中指定的收件人on_failure直到最後運行的重試。

JobSettings

重要的

  • 當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。

  • 當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。

設置工作。這些設置可以更新使用resetJob方法。

字段名

類型

描述

existing_cluster_idnew_cluster

字符串NewCluster

如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。

如果new_cluster,集群的描述將被創建為每個運行。

如果指定一個PipelineTask,那麼這個字段可以是空的。

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。

如果spark_jar_task,表明這項工作應該運行一個罐子裏。

如果spark_python_task,表明這項工作應該運行Python文件。

如果spark_submit_task,表明這項工作應該發起的火花提交腳本。

如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。

如果run_job_task,表明這項工作應該運行另一份工作。

的名字

字符串

一個可選的名字。默認值是無標題的

一個數組的圖書館

一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。

email_notifications

JobEmailNotifications

一個可選的組運行時會通知的電子郵件地址的這個工作開始或完成這份工作時被刪除。默認行為是不發送任何電子郵件。

webhook_notifications

WebhookNotifications

一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。

notification_settings

JobNotificationSettings

使用可選的通知設置在發送通知的email_notificationswebhook_notifications對於這個工作。

timeout_seconds

INT32

一個可選的超時應用於每次運行的工作。默認行為是沒有超時。

max_retries

INT32

一個可選的最大重試失敗的次數。跑步被認為是不成功的,如果它完成的失敗的result_state或INTERNAL_ERRORlife_cycle_state。值1的意思是無限期重試,值0意味著永不重試。默認行為是不重試。

min_retry_interval_millis

INT32

一個可選的嚐試之間的最小間隔時間以毫秒為單位。默認行為是成功運行立即重試。

retry_on_timeout

BOOL

一個可選的策略來指定是否重試時超時工作。默認行為是在超時不重試。

時間表

CronSchedule

一個可選的周期安排這項工作。默認行為是引發的作業隻會運行時點擊“運行”的工作界麵或發送一個API請求runNow

max_concurrent_runs

INT32

一個可選的最大允許並發運行的作業的數量。

設置這個值,如果你希望能夠執行多個並發運行相同的作業。這是有用的,例如如果你頻繁觸發你的工作在一個計劃,希望允許連續運行相互重疊,或如果你想觸發多個運行不同的輸入參數。

這個設置隻影響新的運行。例如,假設工作的並發是4和有4個並發活動。然後設置並發3不會殺死任何活動運行的。然而,從那時起,新的運行時將被忽略,除非有少於3活躍。

這個值不能超過1000。這個值設置為0會引起新的運行跳過。默認行為是隻允許1並發運行。

健康

JobsHealthRules

定義一組可選的衛生規則。

JobTask

字段名

類型

描述

notebook_taskspark_jar_taskspark_python_taskspark_submit_taskpipeline_taskrun_job_task

NotebookTaskSparkJarTaskSparkPythonTaskSparkSubmitTaskPipelineTaskRunJobTask

如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。

如果spark_jar_task,表明這項工作應該運行一個罐子裏。

如果spark_python_task,表明這項工作應該運行Python文件。

如果spark_submit_task,表明這項工作應該發起的火花提交腳本。

如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。

如果run_job_task,表明這項工作應該運行另一份工作。

JobsHealthRule

字段名

類型

描述

度規

字符串

指定的衛生指標評估特定衛生規則。有效的值RUN_DURATION_SECONDS

操作符

字符串

指定操作符用於比較健康度量值與指定的閾值。有效的值GREATER_THAN

價值

INT32

指定的閾值,衛生指標應滿足遵守衛生規則。

JobsHealthRules

字段名

類型

描述

規則

一個數組的JobsHealthRule

一組可選的衛生規則,可以定義一個工作。

圖書館

字段名

類型

描述

jarwhlpypimaven凹口

字符串字符串字符串PythonPyPiLibraryMavenLibraryRCranLibrary

如果jar, URI的jar安裝。DBFS和GCS (gs支持)的uri。例如:{“罐子”:“dbfs: / mnt /磚/ library.jar”}{“罐子”:“gs: / /桶/ library.jar”}。如果使用gc,確保集群在圖書館讀訪問。

如果雞蛋,雞蛋的URI被安裝。支持DBFS和GCS uri。例如:{“蛋”:“dbfs: /我的/蛋”}{“蛋”:“gs: / /桶/蛋”}

如果whl, URI的車輪或壓縮安裝車輪。支持DBFS和GCS uri。例如:{“whl”:“dbfs: /我的/ whl”}{“whl”:“gs: / /桶/ whl”}。如果使用gc,確保集群在圖書館讀訪問。輪文件名需要使用正確的公約。如果要安裝壓縮輪子,文件名後綴.wheelhouse.zip

如果pypi, pypi庫安裝的規範。指定回購字段是可選的,如果沒有指定,默認使用脈衝指數。例如:{“包”:“simplejson”,“回購”:“https://my-repo.com”}

如果maven, maven庫安裝的規範。例如:{“坐標”:“org.jsoup: jsoup: 1.7.2”}

如果凹口,凹口庫安裝的規範。

MavenLibrary

請注意

Maven庫支持磚運行時7.3 LTS(沒有其他7。x版本)和8.1以上。

字段名

類型

描述

坐標

字符串

Gradle-style Maven坐標。例如:org.jsoup: jsoup:是1.7.2。這個字段是必需的。

回購

字符串

Maven回購安裝Maven寄來的包裹。如果省略,Maven中央存儲庫和引發搜索包。

除外責任

一個數組的字符串

依賴性排除列表。例如:[" slf4j: slf4j”,“* hadoop-client”):

Maven依賴除外責任:https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html

NewCluster

字段名

類型

描述

num_workers自動定量

INT32自動定量

如果num_workers,工人數量節點集群應該。一個集群有一個火花司機和num_workers執行人總共num_workers + 1火花節點。

當閱讀一個集群的屬性,這個領域反映所需的工人數量而不是工人數量的實際電流。例如,如果一個集群的大小從5到10的工人,這一領域將立即被更新以反映目標大小為10的工人,而工人們中列出spark_info將逐漸增加從5到10新節點配置。

如果自動定量,必需的參數自動上下規模集群基於負載。

spark_version

字符串

集群的火花版本。可用火花版本的列表可以通過使用檢索得到2.0 /集群/ spark-versions調用。這個字段是必需的。

spark_conf

SparkConfPair

一個對象包含一組可選的,指定的火花配置鍵-值對。還可以通過一係列額外的司機和執行人通過JVM選項spark.driver.extraJavaOptionsspark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

gcp_attributes

穀歌雲屬性

屬性相關的集群上運行穀歌雲。如果沒有指定在創建集群,將使用默認值。

node_type_id

字符串

這一領域的編碼,通過單個值,可用的資源的火花節點集群。例如,火花節點可以提供和優化內存或計算密集型工作負載可用節點類型的列表可以通過使用檢索得到2.0 /集群/ list-node-types調用。這個領域,instance_pool_id字段或一個集群政策,指定一個節點類型ID或實例池ID,是必需的。

driver_node_type_id

字符串

火花的節點類型的司機。這個字段是可選的;如果設置,驅動節點類型將被設置為相同的值node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

設置為空數組。不支持集群SSH。

custom_tags

ClusterTag

總是設置為空數組。

cluster_log_conf

ClusterLogConf

長期存儲的配置提供火花日誌目的地。隻能指定一個目標為一個集群。如果配置,日誌將被交付給每一個目的地5分鍾。司機日誌的目的地<目標> / < cluster-id > /司機的目的地,而執行者日誌<目標> / < cluster-id > /執行器

init_scripts

一個數組的InitScriptInfo

存儲的配置初始化腳本。可以指定任意數量的腳本。所提供的腳本的順序執行。如果cluster_log_conf指定,init腳本日誌發送到嗎<目標> / < cluster-id > / init_scripts

spark_env_vars

SparkEnvPair

一個對象包含一組可選的,鍵值指定的環境變量。鍵-值對的形式(X, Y)出口(即,出口X = Y),而司機和工人。

指定一組額外的SPARK_DAEMON_JAVA_OPTS,我們建議追加SPARK_DAEMON_JAVA_OPTS美元如以下示例所示。這確保了所有默認磚管理包括環境變量。

示例引發環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

enable_elastic_disk

BOOL

Akways設置為false。

instance_pool_id

字符串

可選的ID用於集群節點實例池。指的是實例池API獲取詳細信息。

NotebookOutput

字段名

類型

描述

結果

字符串

值傳遞給dbutils.notebook.exit ()。磚限製這個API返回的第一個1 MB值。對於一個更大的結果,你的工作可以將結果存儲在雲存儲服務。這一領域將會缺席dbutils.notebook.exit ()從來沒有叫。

截斷

布爾

不管結果是截斷。

NotebookTask

所有輸出細胞受到8 mb的大小。如果一個細胞的輸出有較大的尺寸,其餘的將被取消,跑將標記為失敗。在這種情況下,一些內容的輸出從其他細胞也可能丟失。

字段名

類型

描述

notebook_path

字符串

絕對路徑的筆記本運行磚工作區。這條路必須開始削減。這個字段是必需的。

revision_timestamp

修改的時間戳的筆記本。

base_parameters

的地圖ParamPair

基礎參數用於每次運行的工作。如果是由調用運行現在參數指定的兩個參數地圖將被合並。如果指定相同的密鑰base_parameters而在現在的價值現在就會被使用。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

如果沒有指定的筆記本需要一個參數在工作的base_parameters或者是現在覆蓋參數,從筆記本將使用默認值。

獲取這些參數在一個筆記本使用dbutils.widgets.get

ParamPair

筆記本運行基於名稱的參數作業任務。

重要的

這個數據結構隻接受拉丁字符的字段(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。

類型

描述

字符串

參數名稱。傳遞給dbutils.widgets.get來檢索值。

字符串

參數值。

PipelineTask

字段名

類型

描述

pipeline_id

字符串

三角洲的全稱生活表管道任務執行。

PythonPyPiLibrary

字段名

類型

描述

字符串

的名字PyPI包安裝。還支持一個可選的版本規範。例子:simplejsonsimplejson = = 3.8.0。這個字段是必需的。

回購

字符串

可以找到包的存儲庫。如果沒有指定,默認使用脈衝指數。

RCranLibrary

字段名

類型

描述

字符串

凹口的名字包安裝。這個字段是必需的。

回購

字符串

可以找到包的存儲庫。如果沒有指定,默認使用凹口回購。

運行

所有的信息除了它的輸出。輸出可以分別與檢索getRunOutput方法。

字段名

類型

描述

job_id

INT64

規範標識符包含這個運行的工作。

run_id

INT64

規範化運行的標識符。這個ID是獨特的在所有運行的所有工作。

creator_user_name

字符串

造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除。

number_in_job

INT64

序列號的運行在所有的運行工作。這個值從1開始。

original_attempt_run_id

INT64

如果這是之前運行的重試嚐試運行,該字段包含原文的run_id嚐試;否則,它是run_id一樣。

狀態

RunState

運行的結果和生命周期狀態。

時間表

CronSchedule

觸發這個運行的cron調度如果是引發的周期性調度程序。

任務

JobTask

執行的任務運行,如果任何。

cluster_spec

ClusterSpec

工作的快照的集群規範這個運行時創建的。

cluster_instance

ClusterInstance

集群用於此運行。如果指定運行使用一個新的集群,這一領域將一旦就業服務請求的集群運行。

overriding_parameters

RunParameters

用於此運行的參數。

start_time

INT64

這種運行成立於時代的時間毫秒(毫秒因為1/1/1970 UTC)。這可能不是工作任務的時候開始執行,例如,如果工作是計劃一個新的集群上運行,這是集群創建調用的時間。

setup_duration

INT64

設置集群的時間,以毫秒為單位。運行,運行在新集群的集群創建時間,運行現有的集群上運行這個時間應該很短。

execution_duration

INT64

的時間,以毫秒為單位執行JAR中的命令或筆記本,直到他們完成,失敗了,超時,被取消,或者遇到了一個意想不到的錯誤。

cleanup_duration

INT64

以毫秒為單位的時間花了終止集群和清理任何相關的工件。總運行時間的總和setup_duration, execution_duration, cleanup_duration。

end_time

INT64

這個跑在時代結束毫秒的時間(單位為毫秒自1/1/1970 UTC)。這個字段將被設置為0,如果工作仍在運行。

觸發

TriggerType

觸發發射這個運行的類型。

run_name

字符串

一個可選的名稱。默認值是無標題的。最大允許長度是4096字節utf - 8編碼。

run_page_url

字符串

運行的詳細信息頁麵的URL。

run_type

字符串

運行的類型。

  • JOB_RUN——正常工作運行。創建一個運行與現在運行

  • WORKFLOW_RUN——工作流運行。創建一個運行與dbutils.notebook.run

  • SUBMIT_RUN——提交運行。創建一個運行與現在運行

attempt_number

INT32

序列號的嚐試引發工作跑。的初始嚐試運行的attempt_number 0。如果初始運行失敗,工作有一個重試策略(max_retries> 0),隨後創建一個運行original_attempt_run_id最初的嚐試的ID和一個遞增attempt_number。運行僅重試,直到他們成功,最大attempt_number是一樣的嗎max_retries價值的工作。

RunJobTask

字段名

類型

描述

job_id

INT32

工作的惟一標識符。這個字段是必需的。

RunLifeCycleState

的生命周期狀態運行。允許狀態轉換:

  • 等待- >運行- >終止- >終止

  • 等待- >跳過

  • 等待- >INTERNAL_ERROR

  • 運行- >INTERNAL_ERROR

  • 終止- >INTERNAL_ERROR

狀態

描述

等待

運行觸發。如果沒有一個活躍的運行相同的工作,集群正在準備和執行上下文。如果已經有一個活躍的運行相同的工作,運行就會立即進入跳過國家沒有準備任何資源。

運行

正在運行的任務執行。

終止

這個運行的任務已經完成,集群和執行上下文被清理幹淨。

終止

這個運行的任務已經完成,集群和執行上下文已經清理幹淨。這個狀態是終端。

跳過

這流產是因為先前跑同樣的工作已經活躍。這個狀態是終端。

INTERNAL_ERROR

異常狀態,表示失敗的工作服務,如長期網絡故障。如果一個運行在一個新的集群中結束INTERNAL_ERROR狀態,就業服務盡快終止集群。這個狀態是終端。

RunParameters

這個運行參數。隻有jar_params之一,python_params,或者notebook_params應該中指定現在請求,這取決於類型的工作任務。工作與火花JAR任務或Python任務列表的定位參數,使用筆記本電腦和工作任務鍵值映射。

字段名

類型

描述

jar_params

一個數組的字符串

參數列表工作與火花JAR任務,例如“jar_params”:["約翰母鹿”,“35”)。參數將用於調用中指定的主類的主要功能火花JAR任務。如果未指定現在,它將默認為一個空列表。jar_params不能結合notebook_params指定。這個字段(即的JSON表示。{“jar_params”:["約翰母鹿”、“35”)})不能超過10000個字節。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

notebook_params

的地圖ParamPair

與筆記本從鍵值映射工作任務,如。“notebook_params”:{" name ":“約翰母鹿”,“年齡”:“35”}。地圖被傳遞到筆記本,可以通過dbutils.widgets.get函數。

如果未指定現在,觸發運行使用工作的基礎參數。

notebook_params不能結合jar_params指定。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

這個字段(即的JSON表示。{" notebook_params ":{“名稱”:“約翰母鹿”、“年齡”:“35”}})不能超過10000個字節。

python_params

一個數組的字符串

與Python任務工作的參數列表,如“python_params”:["約翰母鹿”,“35”)。參數傳遞到Python文件作為命令行參數。如果指定在現在,它將覆蓋工作設置中指定的參數。這個字段(即的JSON表示。{“python_params”:["約翰母鹿”、“35”)})不能超過10000個字節。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

重要的

這些參數隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。

spark_submit_params

一個數組的字符串

工作引發的參數列表提交的任務,例如“spark_submit_params”:["——階級”,“org.apache.spark.examples.SparkPi”)。參數傳遞給腳本spark-submit作為命令行參數。如果指定在現在,它將覆蓋工作設置中指定的參數。這個字段(即的JSON表示。{“python_params”:["約翰母鹿”、“35”)})不能超過10000個字節。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

重要的

這些參數隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。

RunResultState

的結果狀態運行。

  • 如果life_cycle_state=終止:如果有一個任務運行,結果是保證是可用的,它表明任務的結果。

  • 如果life_cycle_state=等待,運行,或跳過,結果不可用狀態。

  • 如果life_cycle_state=終止或lifecyclestate =INTERNAL_ERROR:結果狀態可用如果運行一個任務和管理開始。

一旦可用,結果狀態不會改變。

狀態

描述

成功

任務成功完成。

失敗的

任務完成的一個錯誤。

TIMEDOUT

達到超時後運行停止。

取消了

運行在用戶請求被取消了。

RunState

字段名

類型

描述

life_cycle_state

RunLifeCycleState

的描述運行的運行生命周期中的當前位置。這個領域在響應中總是可用的。

result_state

RunResultState

的結果狀態運行。如果不可用,反應不包括這個領域。看到RunResultState對細節result_state的可用性。

user_cancelled_or_timedout

布爾

由用戶手動運行是否被取消或調度程序,因為運行超時。

state_message

字符串

當前狀態的描述性信息。這個字段是結構化的,它的確切格式是可能發生變化。

SparkConfPair

火花配置鍵-值對。

類型

描述

字符串

配置屬性的名稱。

字符串

配置屬性值。

SparkEnvPair

引發環境變量鍵-值對。

重要的

當指定環境變量的工作集群,這個數據結構隻接受拉丁字符的字段(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。

類型

描述

字符串

一個環境變量的名字。

字符串

環境變量的值。

SparkJarTask

字段名

類型

描述

jar_uri

字符串

自04/2016棄用。提供一個jar通過字段。例如,看到的創建

main_class_name

字符串

類的全名包含要執行的主要方法。這個類必須包含在一個JAR作為圖書館提供。

代碼應該使用SparkContext.getOrCreate獲得一個火花上下文;否則,運行的作業將失敗。

參數

一個數組的字符串

傳遞的參數的主要方法。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

SparkPythonTask

字段名

類型

描述

python_file

字符串

執行Python文件的URI。DBFS路徑支持。這個字段是必需的。

參數

一個數組的字符串

命令行參數傳遞給Python文件。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

SparkSubmitTask

重要的

  • 您可以調用火花提交任務隻有在新的集群。

  • new_cluster規範中,spark_conf不受支持。相反,使用——罐子——py-files添加Java和Python庫——設計設置火花配置。

  • ,deploy-mode,executor-cores是由磚自動配置;你不能指定參數。

  • 默認情況下,火花提交工作使用所有可用的內存(不含磚服務保留內存)。你可以設置——driver-memory,——executor-memory一個較小的值,留一些餘地堆使用。

  • ——罐子,——py-files,——文件參數支持DBFS路徑。

例如,假設JAR DBFS上傳,您可以運行SparkPi通過設置以下參數。

{“參數”:(”——階級”,“org.apache.spark.examples.SparkPi”,“dbfs: /道路/ / examples.jar”,“10”]}

字段名

類型

描述

參數

一個數組的字符串

命令行參數傳遞給火花提交。

使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。

TriggerType

這些類型的觸發器可以運行。

類型

描述

周期

安排定期引發運行時,比如一個cron調度程序。

ONE_TIME

一個火一個運行時間觸發。發生這種情況你觸發了一個運行在通過UI需求或API。

重試

表明一個運行觸發的重試之前運行失敗。這發生在你請求重新運行工作的失敗。

ViewItem

導出的內容是在HTML格式。例如,如果視圖導出儀表板,一個HTML字符串返回每一個儀表板。

字段名

類型

描述

內容

字符串

視圖的內容。

的名字

字符串

視圖項的名稱。在代碼視圖的情況下,筆記本電腦的名字。在儀表板視圖,儀表板的名字。

類型

ViewType

視圖條目的類型。

ViewType

類型

描述

筆記本

筆記本查看項目。

指示板

儀表板視圖條目。

ViewsToExport

視圖導出:要麼代碼,所有儀表板,或全部。

類型

描述

代碼

筆記本的代碼視圖。

指示板

所有儀表板視圖的筆記本。

所有

筆記本的所有視圖。

Webhook

字段名

類型

描述

id

字符串

標識符引用係統通知目的地。這個字段是必需的。

WebhookNotifications

字段名

類型

描述

on_start

一個數組的Webhook

一個可選列表係統目的地運行開始時得到通知。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地on_start財產。

on_success

一個數組的Webhook

一個可選列表係統目的地運行成功完成時得到通知。跑步被認為是成功完成如果結尾終止life_cycle_state和一個成功的result_state。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地on_success財產。

on_failure

一個數組的Webhook

一個可選的係統的目的地列表完成運行失敗時得到通知。跑步被認為已經完成了如果它以一個失敗INTERNAL_ERRORlife_cycle_state或者一個跳過,失敗的,或TIMED_OUTresult_state。如果不指定這個值在創造就業方麵,重置,或更新列表為空,不發送通知。最多3可以指定的目的地on_failure財產。

on_duration_warning_threshold_exceeded

一個數組的Webhook

一個可選的通知係統的目的地列表當運行的持續時間超過指定的閾值RUN_DURATION_SECONDS規的健康字段。最多3可以指定的目的地on_duration_warning_threshold_exceeded財產。

WorkspaceStorageInfo

工作區存儲信息。

字段名

類型

描述

目的地

字符串

文件的目的地。例子:/用戶/ someone@domain.com/init_script.sh