喬布斯API 2.0
就業API允許您創建、編輯和刪除工作。一個請求到工作的最大允許大小API是10 mb。
對細節的更新工作API,支持多個任務的編排與磚工作,明白了喬布斯API更新。
警告
千萬不要硬編碼秘密或者存儲在純文本。使用秘密的API管理的秘密磚CLI。使用秘密效用(dbutils.secrets)引用在筆記本和工作秘密。
請注意
如果你收到一個500級的錯誤做喬布斯API請求時,磚建議重試請求10分鍾(重試之間至少30秒時間間隔)。
重要的
訪問數據磚REST api,你必須進行身份驗證。
創建
端點 |
HTTP方法 |
---|---|
|
|
創建一個新工作。
例子
這個示例創建一個工作運行JAR任務10:15pm每晚。
請求
curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/創建\——數據@create-job.json\|金橋。
create-job.json
:
{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:3600年,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。的內容
create-job.json
與字段,適合您的解決方案。
請求結構
重要的
當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。
當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。 如果new_cluster,集群的描述將被創建為每個運行。 如果指定一個PipelineTask,這個領域可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。 如果spark_jar_task,表明這項工作應該運行一個罐子裏。 如果spark_python_task,表明這項工作應該運行Python文件。 如果spark_submit_task,表明這項工作應該發起的火花提交腳本。 如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。 如果run_job_task,表明這項工作應該運行另一份工作。 |
|
|
一個可選的名字。默認值是 |
|
一個數組的圖書館 |
一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。 |
|
一組可選的電子郵件地址通知當運行這個工作開始和完成時,這項工作被刪除。默認行為是不發送任何電子郵件。 |
|
|
一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。 |
|
|
使用可選的通知設置在發送通知的 |
|
|
|
一個可選的超時應用於每次運行的工作。默認行為是沒有超時。 |
|
|
一個可選的最大重試失敗的次數。跑步被認為是不成功的,如果它完成的 |
|
|
之間的一個可選的最小間隔時間以毫秒為單位的失敗和隨後的重試跑。默認行為是成功運行立即重試。 |
|
|
一個可選的策略來指定是否重試時超時工作。默認行為是在超時不重試。 |
|
一個可選的周期安排這項工作。默認行為是工作運行時通過點擊觸發現在運行在工作界麵或發送一個API請求 |
|
|
|
一個可選的最大允許並發運行的作業的數量。 設置這個值,如果你希望能夠執行多個並發運行相同的作業。這是有用的,例如如果你頻繁觸發你的工作在一個計劃,希望允許連續運行相互重疊,或如果你想觸發多個運行不同的輸入參數。 這個設置隻影響新的運行。例如,假設工作的並發是4和有4個並發活動。然後設置並發3不會殺死任何活動運行的。然而,從那時起,新的運行跳過除非有少於3活躍。 這個值不能超過1000。這個值設置為0會引起新的運行跳過。默認行為是隻允許1並發運行。 |
列表
端點 |
HTTP方法 |
---|---|
|
|
列出所有工作。
例子
請求
curl——netrc請求\https:// < databricks-instance > / api / 2.0 /工作/列表\|金橋。
取代< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。
響應
{“工作”:({“job_id”:1,“設置”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}]}
響應結構
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的工作 |
工作列表。 |
刪除
端點 |
HTTP方法 |
---|---|
|
|
刪除一個工作,發送一封電子郵件到指定的地址JobSettings.email_notifications
。如果發生任何行動工作已經被移除。工作是刪除之後,它的細節和其運行的曆史是可見的UI或API的工作。這份工作是保證完成這個請求刪除。然而,運行前活動收到這個請求可能仍然是活躍的。他們將終止異步。
得到
端點 |
HTTP方法 |
---|---|
|
|
檢索信息的一個工作。
例子
請求
curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/ ? job_id = <作業id > '\|金橋。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/\——數據job_id=<作業id >\|金橋。
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。<作業id >
例如,與工作的ID123年
。
響應
{“job_id”:1,“設置”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}},“created_time”:1457570074236}
重置
端點 |
HTTP方法 |
---|---|
|
|
覆蓋所有設置為一個特定的工作。使用更新端點設置部分更新工作。
例子
這個示例請求使工作2相同的工作1創建的例子。
curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/重置\——數據@reset-job.json\|金橋。
reset-job.json
:
{“job_id”:2,“new_settings”:{“名稱”:“夜間模式”培訓,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“email_notifications”:{“on_start”:[],“on_success”:[],“on_failure”:[]},“webhook_notifications”:{“on_start”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_success”:({“id”:“bf2fbd0a——4 - a05 - 4300 - 98 - a5 - 303 fc8132233”}),“on_failure”:[]},“timeout_seconds”:100000000,“max_retries”:1,“安排”:{“quartz_cron_expression”:“0 15 22 * * ?”,“timezone_id”:“美國/ Los_Angeles”,“pause_status”:“停頓”},“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}}
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。的內容
reset-job.json
與字段,適合您的解決方案。
更新
端點 |
HTTP方法 |
---|---|
|
|
添加、更改或刪除現有工作的特定設置。使用重置端點覆蓋所有工作設置。
例子
這個示例請求添加庫和刪除電子郵件通知設置中定義的工作1創建的例子。
curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/更新\——數據@update-job.json\|金橋。
update-job.json
:
{“job_id”:1,“new_settings”:{“existing_cluster_id”:“1201 -我的集群”,“email_notifications”:{“on_start”:(“someone@example.com”),“on_success”:[],“on_failure”:[]}},“fields_to_remove”:(“庫”]}
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。的內容
update-job.json
與字段,適合您的解決方案。
現在運行
重要的
你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。
1000個並發任務工作空間是有限的。一個
429年太許多請求
當你返回請求的響應不能立即開始運行。就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。
端點 |
HTTP方法 |
---|---|
|
|
現在運行工作並返回run_id
引發的運行。
例子
curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行\——數據@run-job.json\|金橋。
run-job.json
:
一個示例請求一個筆記本工作:
{“job_id”:1,“notebook_params”:{“名稱”:“john doe”,“年齡”:“35”}}
請求一個例子為一罐工作:
{“job_id”:2,“jar_params”:(“john doe”,“35”]}
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。的內容
run-job.json
與字段,適合您的解決方案。
請求結構
字段名 |
類型 |
描述 |
---|---|---|
|
|
|
|
一個數組的 |
參數的工作與JAR任務列表,如 |
|
的地圖ParamPair |
與筆記本從鍵值映射工作任務,如。 如果未指定 你不能指定notebook_params結合jar_params。 這個字段(即的JSON表示。 |
|
一個數組的 |
與Python任務工作的參數列表,如 |
|
一個數組的 |
工作引發的參數列表提交的任務,例如 |
|
|
一個可選的標記來保證工作運行的冪等性請求。如果運行提供的令牌已經存在,請求不創建一個新的運行但回報現有運行的ID。如果運行提供的令牌被刪除,返回一個錯誤。 如果你指定冪等性標記,當失敗的時候你可以重試,直到請求成功。磚保證啟動一個運行與冪等性令牌。 這個令牌必須有最多64個字符。 例如, |
運行提交
重要的
你隻能創造就業數據科學與工程工作區或一個機器學習的工作區。
1000個並發任務工作空間是有限的。一個
429年太許多請求
當你返回請求的響應不能立即開始運行。就業人數工作區可以創建在10000年一個小時是有限的(包括”提交”)。REST API創建的這個限製也會影響就業和筆記本工作流。
端點 |
HTTP方法 |
---|---|
|
|
提交一次運行。這個端點允許你提交一個工作負載直接創建一個工作。使用工作/運行/
API來檢查工作提交後的運行狀態。
例子
請求
curl——netrc POST請求\https:// < databricks-instance > / api / 2.0 /工作/運行/提交\——數據@submit-job.json\|金橋。
submit-job.json
:
{“run_name”:“我的任務”火花,“new_cluster”:{“spark_version”:“7.5.x-scala2.12”,“node_type_id”:“n1-highmem-4”,“aws_attributes”:{“可用性”:“ON_DEMAND”},“num_workers”:10},“庫”:({“罐子”:“dbfs: / my-jar.jar”},{“專家”:{“坐標”:“org.jsoup: jsoup: 1.7.2”}}),“spark_jar_task”:{“main_class_name”:“com.databricks.ComputeModels”}}
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。的內容
submit-job.json
與字段,適合您的解決方案。
請求結構
重要的
當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。
當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。 如果new_cluster,集群的描述將被創建為每個運行。 如果指定一個PipelineTask,那麼這個字段可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。 如果spark_jar_task,表明這項工作應該運行一個罐子裏。 如果spark_python_task,表明這項工作應該運行Python文件。 如果spark_submit_task,表明這項工作應該發起的火花提交腳本。 如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。 如果run_job_task,表明這項工作應該運行另一份工作。 |
|
|
一個可選的名稱。默認值是 |
|
一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。 |
|
|
使用可選的通知設置在發送通知的 |
|
|
一個數組的圖書館 |
一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。 |
|
|
一個可選的超時應用於每次運行的工作。默認行為是沒有超時。 |
|
|
一個可選的標記來保證工作運行的冪等性請求。如果運行提供的令牌已經存在,請求不創建一個新的運行但回報現有運行的ID。如果運行提供的令牌被刪除,返回一個錯誤。 如果你指定冪等性標記,當失敗的時候你可以重試,直到請求成功。磚保證啟動一個運行與冪等性令牌。 這個令牌必須有最多64個字符。 例如, |
運行清單
端點 |
HTTP方法 |
---|---|
|
|
運行在開始時間降序排列的列表。
例子
請求
curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/列表? job_id = <作業id > &active_only = <是非題>抵消= <抵消>限製= <限製> &run_type = < run-type > '\|金橋。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/列表\——數據“job_id = <作業id > &active_only = <是非題>抵消= <抵消>限製= <限製> &run_type = < run-type > '\|金橋。
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。<作業id >
例如,與工作的ID123年
。《是非題》
與真正的
或假
。<抵消>
與抵消
價值。<限製>
與限製
價值。< run-type >
與run_type
價值。
響應
{“運行”:({“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“運行”,“state_message”:“執行動作”},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ donald@duck.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”}),“has_more”:真正的}
請求結構
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果active_only 如果completed_only |
|
|
的工作運行。如果省略,就業服務將從所有工作列表。 |
|
|
第一次運行返回的抵消,相對於最近的運行。 |
|
|
跑到返回的數量。這個值應大於0小於1000。默認值是20。如果請求指定的極限0,最大限度的服務將使用。 |
|
|
跑到返回的類型。運行類型的描述,請參閱運行。 |
響應結構
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的運行 |
運行的一個列表,從最近的開始。 |
|
|
如果這是真的,額外的匹配濾波器可用於提供清單。 |
運行得到
端點 |
HTTP方法 |
---|---|
|
|
檢索的元數據。
例子
請求
curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/ ? run_id = <運行id > '\|金橋。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/\——數據run_id=<運行id >\|金橋。
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。<運行id >
例如,與運行的ID123年
。
響應
{“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“運行”,“state_message”:“執行動作”},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“end_time”:1457570075149,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”}
響應結構
字段名 |
類型 |
描述 |
---|---|---|
|
|
規範標識符包含這個運行的工作。 |
|
|
規範化運行的標識符。這個ID是獨特的在所有運行的所有工作。 |
|
|
序列號的運行在所有的運行工作。這個值從1開始。 |
|
|
如果這是之前運行的重試嚐試運行,該字段包含原文的run_id嚐試;否則,它是run_id一樣。 |
|
運行的結果和生命周期狀態。 |
|
|
觸發這個運行的cron調度如果是引發的周期性調度程序。 |
|
|
執行的任務運行,如果任何。 |
|
|
工作的快照的集群規範這個運行時創建的。 |
|
|
集群用於此運行。如果指定運行使用一個新的集群,這一領域將一旦就業服務請求的集群運行。 |
|
|
用於此運行的參數。 |
|
|
|
這種運行成立於時代的時間毫秒(毫秒因為1/1/1970 UTC)。這可能不是工作任務的時候開始執行,例如,如果工作是計劃一個新的集群上運行,這是集群創建調用的時間。 |
|
|
這個跑在時代結束毫秒的時間(單位為毫秒自1/1/1970 UTC)。這個字段將被設置為0,如果工作仍在運行。 |
|
|
時間以毫秒為單位設置集群。運行,運行在新集群的集群創建時間,運行現有的集群上運行這個時間應該很短。總運行時間的總和 |
|
|
的時間,以毫秒為單位執行JAR中的命令或筆記本,直到他們完成,失敗了,超時,被取消,或者遇到了一個意想不到的錯誤。總運行時間的總和 |
|
|
以毫秒為單位的時間花了終止集群和清理任何相關的工件。總運行時間的總和 |
|
|
時間以毫秒為單位的工作運行和它的所有維修完成。這個字段隻設置運行,而不是任務運行多任務工作。一個任務運行的時間的總和 |
|
觸發發射這個運行的類型。 |
|
|
|
造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除 |
|
|
運行的詳細信息頁麵的URL。 |
經營出口
端點 |
HTTP方法 |
---|---|
|
|
出口和檢索工作運行的任務。
請注意
隻能出口筆記本運行在HTML格式。出口的其他類型將會失敗。
例子
請求
curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/出口? run_id = <運行id > '\|金橋。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/出口\——數據run_id=<運行id >\|金橋。
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。<運行id >
例如,與運行的ID123年
。
響應
{“視圖”:({“內容”:“< !html DOCTYPE html > < > < >負責人< /頭> <身體> < /身體> < / html >”,“名稱”:“我的筆記本”,“類型”:“筆記本”}]}
從JSON響應中提取的HTML的筆記本,下載並運行Python腳本。
請注意
筆記本的身體__DATABRICKS_NOTEBOOK_MODEL
對象是編碼。
響應結構
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的ViewItem |
在HTML格式導出的內容(一個為每個視圖條目)。 |
取消運行
端點 |
HTTP方法 |
---|---|
|
|
取消工作運行。因為取消了異步運行,運行這個請求完成時可能仍在運行。運行不久將被終止。如果已經在一個終端運行life_cycle_state
,這個方法是一個空操作。
這個端點確認run_id
參數是有效的和無效的參數返回HTTP狀態代碼400。
取消所有運行
端點 |
HTTP方法 |
---|---|
|
|
取消所有活動的工作。因為取消了異步運行,它不會阻止新的運行開始。
這個端點確認job_id
參數是有效的和無效的參數返回HTTP狀態代碼400。
運行得到的輸出
端點 |
HTTP方法 |
---|---|
|
|
檢索一個任務的輸出和元數據。當一個筆記本任務通過返回一個值dbutils.notebook.exit ()電話,您可以使用該端點來檢索該值。磚限製這個API返回的輸出的第一個5 MB。對於返回一個更大的結果,您可以工作結果存儲在雲存儲服務。
這個端點確認run_id
參數是有效的和無效的參數返回HTTP狀態代碼400。
運行之後自動刪除60天。如果你想引用它們超出60天,到期前你應該保存古老的運行結果。出口使用UI,明白了出口工作運行結果。出口使用工作API,明白了經營出口。
例子
請求
curl——netrc請求\“https:// < databricks-instance > / api / 2.0 /工作/運行/輸出? run_id = <運行id > '\|金橋。
或者:
curl——netrc\https:// < databricks-instance > / api / 2.0 /工作/運行/輸出\——數據run_id=<運行id >\|金橋。
替換:
< databricks-instance >
與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com
。<運行id >
例如,與運行的ID123年
。
響應
{“元數據”:{“job_id”:1,“run_id”:452年,“number_in_job”:5,“狀態”:{“life_cycle_state”:“終止”,“result_state”:“成功”,“state_message”:”“},“任務”:{“notebook_task”:{“notebook_path”:“/用戶/ someone@example.com/my-notebook”}},“cluster_spec”:{“existing_cluster_id”:“1201 -我的集群”},“cluster_instance”:{“cluster_id”:“1201 -我的集群”,“spark_context_id”:“1102398 -火花上下文id”},“overriding_parameters”:{“jar_params”:(“param1”,“param2”]},“start_time”:1457570074236,“setup_duration”:259754年,“execution_duration”:3589020,“cleanup_duration”:31038年,“run_duration”:3879812,“觸發”:“周期”},“notebook_output”:{“結果”:“也許截斷字符串傳遞給dbutils.notebook.exit ()}}
請求結構
字段名 |
類型 |
描述 |
---|---|---|
|
|
規範標識符。找工作與mulitple任務,這是 |
響應結構
字段名 |
類型 |
描述 |
---|---|---|
|
NotebookOutput或 |
如果notebook_output,筆記本的輸出任務,如果可用。一個筆記本任務終止(成功或失敗)沒有打電話 如果錯誤,一個錯誤消息指示輸出不可用的原因。非結構化信息,和它的確切格式都可能發生變化。 |
|
所有的細節除了運行它的輸出。 |
運行刪除
端點 |
HTTP方法 |
---|---|
|
|
刪除一個穩定的運行。返回一個錯誤如果運行活動。
數據結構
在本節中:
自動定量
集群範圍定義的最小和最大數量的工人。
字段名 |
類型 |
描述 |
---|---|---|
|
|
工人的最低數量的集群可以縮小時沒有得到充分的利用。這也是最初的工人數量集群創建後。 |
|
|
工人的最大數量的集群可以擴大當超載。必須嚴格大於min_workers max_workers。 |
ClusterInstance
集群和火花上下文標識符使用的運行。這兩個值一起識別執行上下文的所有時間。
字段名 |
類型 |
描述 |
---|---|---|
|
|
規範標識符使用的集群運行。這個領域一直是用於現有的集群上運行。新的集群上運行,它可用一次創建集群。這個值可以用來查看日誌通過瀏覽 響應不包括這個領域如果還沒有可用的標識符。 |
|
|
規範標識符使用的上下文。這個領域將填寫一旦運行開始執行。這個值可以用來查看火花UI通過瀏覽 響應不包括這個領域如果還沒有可用的標識符。 |
ClusterLogConf
集群日誌路徑。
字段名 |
類型 |
描述 |
---|---|---|
DBFS集群日誌的位置。必須提供目的地。例如, |
ClusterSpec
重要的
當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。
當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。 如果new_cluster,集群的描述將被創建為每個運行。 如果指定一個PipelineTask,那麼這個字段可以是空的。 |
|
一個數組的圖書館 |
一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。 |
ClusterTag
集群標簽定義。
CronSchedule
字段名 |
類型 |
描述 |
---|---|---|
|
|
一個Cron表達式使用石英語法描述安排一份工作。看到Cron觸發獲取詳細信息。這個字段是必需的。 |
|
|
Java時區ID。工作時間表將會解決關於這個時區。看到Java時區獲取詳細信息。這個字段是必需的。 |
|
|
指示是否這個計劃暫停。“暫停”或“停頓”。 |
穀歌雲屬性
屬性設置集群創建期間有關穀歌雲。
字段名 |
類型 |
描述 |
---|---|---|
|
|
使用搶占的執行人。 |
|
|
|
|
|
大小,以GB磁盤的分配給每個實例。這個值必須在100 - 4096之間。 |
重要的
使用與GCS和BigQuery穀歌服務帳戶,你使用訪問數據源必須位於同一個項目時指定的SA建立你的磚賬戶。
InitScriptInfo
一個init腳本。
請注意
文件存儲類型(字段名:文件
)隻能用於集群設置使用磚容器服務。看到FileStorageInfo。
字段名 |
類型 |
描述 |
---|---|---|
或 |
DbfsStorageInfo(棄用) |
init腳本的工作區位置。必須提供目的地。例如, (棄用)DBFS init腳本的位置。必須提供目的地。例如, 穀歌雲存儲(GCS) init腳本的位置。必須提供目的地。例如, |
工作
字段名 |
類型 |
描述 |
---|---|---|
|
|
這個工作的規範標識符。 |
|
|
造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除。 |
|
|
用戶名,作業將運行。 |
|
和它的所有運行設置這個工作。這些設置可以更新使用 |
|
|
|
這個工作的時間成立於時代毫秒(毫秒因為1/1/1970 UTC)。 |
JobEmailNotifications
重要的
on_start, on_success和on_failure字段隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的 |
電子郵件地址的列表通知運行時就開始了。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。 |
|
一個數組的 |
電子郵件地址的列表成功運行完成時得到通知。跑步被認為是成功完成如果結尾 |
|
一個數組的 |
電子郵件地址的列表通知運行時沒有成功完成。跑步被認為已經完成了如果它以一個失敗 |
|
一個數組的 |
一個被通知的電子郵件地址列表當運行的持續時間超過指定的閾值 |
|
|
如果這是真的,不發送電子郵件收件人中指定 |
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的Webhook |
一個可選列表係統目的地運行開始時得到通知。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地 |
|
一個數組的Webhook |
一個可選列表係統目的地運行成功完成時得到通知。跑步被認為是成功完成如果結尾 |
|
一個數組的Webhook |
一個可選的係統的目的地列表完成運行失敗時得到通知。跑步被認為已經完成了如果它以一個失敗 |
|
一個數組的Webhook |
一個可選的通知係統的目的地列表當運行的持續時間超過指定的閾值 |
JobNotificationSettings
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果這是真的,不發送通知中指定的收件人 |
|
|
如果這是真的,不發送通知中指定的收件人 |
|
|
如果這是真的,不發送通知中指定的收件人 |
JobSettings
重要的
當你在新的工作崗位集群上運行工作,這項工作被視為一個就業計算(自動化)工作負載工作計算價格。
當您運行工作在現有通用的集群,它被視為一個通用計算(互動)工作負載通用計算價格。
設置工作。這些設置可以更新使用resetJob
方法。
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果existing_cluster_id,現有集群的ID將被用於所有的這個工作。現有的集群上運行作業時,您可能需要手動重新啟動集群,如果它停止響應。我們建議新集群上運行工作更大的可靠性。 如果new_cluster,集群的描述將被創建為每個運行。 如果指定一個PipelineTask,那麼這個字段可以是空的。 |
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。 如果spark_jar_task,表明這項工作應該運行一個罐子裏。 如果spark_python_task,表明這項工作應該運行Python文件。 如果spark_submit_task,表明這項工作應該發起的火花提交腳本。 如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。 如果run_job_task,表明這項工作應該運行另一份工作。 |
|
|
一個可選的名字。默認值是 |
|
一個數組的圖書館 |
一個可選的圖書館集群上安裝列表將執行這項工作。默認值是一個空列表。 |
|
一個可選的組運行時會通知的電子郵件地址的這個工作開始或完成這份工作時被刪除。默認行為是不發送任何電子郵件。 |
|
|
一組可選的係統通知目的地當這個工作開始運行,完成,或失敗。 |
|
|
使用可選的通知設置在發送通知的 |
|
|
|
一個可選的超時應用於每次運行的工作。默認行為是沒有超時。 |
|
|
一個可選的最大重試失敗的次數。跑步被認為是不成功的,如果它完成的 |
|
|
一個可選的嚐試之間的最小間隔時間以毫秒為單位。默認行為是成功運行立即重試。 |
|
|
一個可選的策略來指定是否重試時超時工作。默認行為是在超時不重試。 |
|
一個可選的周期安排這項工作。默認行為是引發的作業隻會運行時點擊“運行”的工作界麵或發送一個API請求 |
|
|
|
一個可選的最大允許並發運行的作業的數量。 設置這個值,如果你希望能夠執行多個並發運行相同的作業。這是有用的,例如如果你頻繁觸發你的工作在一個計劃,希望允許連續運行相互重疊,或如果你想觸發多個運行不同的輸入參數。 這個設置隻影響新的運行。例如,假設工作的並發是4和有4個並發活動。然後設置並發3不會殺死任何活動運行的。然而,從那時起,新的運行時將被忽略,除非有少於3活躍。 這個值不能超過1000。這個值設置為0會引起新的運行跳過。默認行為是隻允許1並發運行。 |
|
定義一組可選的衛生規則。 |
JobTask
字段名 |
類型 |
描述 |
---|---|---|
|
NotebookTask或SparkJarTask或SparkPythonTask或SparkSubmitTask或PipelineTask或RunJobTask |
如果notebook_task,表明這項工作應該運行一個筆記本。這一領域可能不是結合spark_jar_task指定。 如果spark_jar_task,表明這項工作應該運行一個罐子裏。 如果spark_python_task,表明這項工作應該運行Python文件。 如果spark_submit_task,表明這項工作應該發起的火花提交腳本。 如果pipeline_task,表明這項工作應該運行一個三角洲住表管道。 如果run_job_task,表明這項工作應該運行另一份工作。 |
JobsHealthRule
字段名 |
類型 |
描述 |
---|---|---|
|
|
指定的衛生指標評估特定衛生規則。有效的值 |
|
|
指定操作符用於比較健康度量值與指定的閾值。有效的值 |
|
|
指定的閾值,衛生指標應滿足遵守衛生規則。 |
JobsHealthRules
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的JobsHealthRule |
一組可選的衛生規則,可以定義一個工作。 |
圖書館
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果jar, URI的jar安裝。DBFS和GCS ( 如果雞蛋,雞蛋的URI被安裝。支持DBFS和GCS uri。例如: 如果whl, URI的車輪或壓縮安裝車輪。支持DBFS和GCS uri。例如: 如果pypi, pypi庫安裝的規範。指定 如果maven, maven庫安裝的規範。例如: 如果凹口,凹口庫安裝的規範。 |
MavenLibrary
請注意
Maven庫支持磚運行時7.3 LTS(沒有其他7。x版本)和8.1以上。
字段名 |
類型 |
描述 |
---|---|---|
|
|
Gradle-style Maven坐標。例如: |
|
|
Maven回購安裝Maven寄來的包裹。如果省略,Maven中央存儲庫和引發搜索包。 |
|
一個數組的 |
依賴性排除列表。例如: Maven依賴除外責任:https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html。 |
NewCluster
字段名 |
類型 |
描述 |
---|---|---|
|
|
如果num_workers,工人數量節點集群應該。一個集群有一個火花司機和num_workers執行人總共num_workers + 1火花節點。 當閱讀一個集群的屬性,這個領域反映所需的工人數量而不是工人數量的實際電流。例如,如果一個集群的大小從5到10的工人,這一領域將立即被更新以反映目標大小為10的工人,而工人們中列出 如果自動定量,必需的參數自動上下規模集群基於負載。 |
|
|
集群的火花版本。可用火花版本的列表可以通過使用檢索得到2.0 /集群/ spark-versions調用。這個字段是必需的。 |
|
一個對象包含一組可選的,指定的火花配置鍵-值對。還可以通過一係列額外的司機和執行人通過JVM選項 火花參看示例: |
|
|
屬性相關的集群上運行穀歌雲。如果沒有指定在創建集群,將使用默認值。 |
|
|
|
這一領域的編碼,通過單個值,可用的資源的火花節點集群。例如,火花節點可以提供和優化內存或計算密集型工作負載可用節點類型的列表可以通過使用檢索得到2.0 /集群/ list-node-types調用。這個領域, |
|
|
火花的節點類型的司機。這個字段是可選的;如果設置,驅動節點類型將被設置為相同的值 |
|
一個數組的 |
設置為空數組。不支持集群SSH。 |
|
總是設置為空數組。 |
|
|
長期存儲的配置提供火花日誌目的地。隻能指定一個目標為一個集群。如果配置,日誌將被交付給每一個目的地 |
|
|
一個數組的InitScriptInfo |
存儲的配置初始化腳本。可以指定任意數量的腳本。所提供的腳本的順序執行。如果 |
|
一個對象包含一組可選的,鍵值指定的環境變量。鍵-值對的形式(X, Y)出口(即, 指定一組額外的 示例引發環境變量: |
|
|
|
Akways設置為false。 |
|
|
可選的ID用於集群節點實例池。指的是實例池API獲取詳細信息。 |
NotebookOutput
字段名 |
類型 |
描述 |
---|---|---|
|
|
值傳遞給dbutils.notebook.exit ()。磚限製這個API返回的第一個1 MB值。對於一個更大的結果,你的工作可以將結果存儲在雲存儲服務。這一領域將會缺席 |
|
|
不管結果是截斷。 |
NotebookTask
所有輸出細胞受到8 mb的大小。如果一個細胞的輸出有較大的尺寸,其餘的將被取消,跑將標記為失敗。在這種情況下,一些內容的輸出從其他細胞也可能丟失。
字段名 |
類型 |
描述 |
---|---|---|
|
|
絕對路徑的筆記本運行磚工作區。這條路必須開始削減。這個字段是必需的。 |
|
|
修改的時間戳的筆記本。 |
|
的地圖ParamPair |
基礎參數用於每次運行的工作。如果是由調用運行 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 如果沒有指定的筆記本需要一個參數在工作的 獲取這些參數在一個筆記本使用dbutils.widgets.get。 |
ParamPair
筆記本運行基於名稱的參數作業任務。
重要的
這個數據結構隻接受拉丁字符的字段(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。
類型 |
描述 |
---|---|
|
參數名稱。傳遞給dbutils.widgets.get來檢索值。 |
|
參數值。 |
PipelineTask
字段名 |
類型 |
描述 |
---|---|---|
|
|
三角洲的全稱生活表管道任務執行。 |
PythonPyPiLibrary
字段名 |
類型 |
描述 |
---|---|---|
|
|
的名字PyPI包安裝。還支持一個可選的版本規範。例子: |
|
|
可以找到包的存儲庫。如果沒有指定,默認使用脈衝指數。 |
RCranLibrary
字段名 |
類型 |
描述 |
---|---|---|
|
|
凹口的名字包安裝。這個字段是必需的。 |
|
|
可以找到包的存儲庫。如果沒有指定,默認使用凹口回購。 |
運行
所有的信息除了它的輸出。輸出可以分別與檢索getRunOutput
方法。
字段名 |
類型 |
描述 |
---|---|---|
|
|
規範標識符包含這個運行的工作。 |
|
|
規範化運行的標識符。這個ID是獨特的在所有運行的所有工作。 |
|
|
造物主的用戶名。這個領域不會包含在響應中如果用戶已經刪除。 |
|
|
序列號的運行在所有的運行工作。這個值從1開始。 |
|
|
如果這是之前運行的重試嚐試運行,該字段包含原文的run_id嚐試;否則,它是run_id一樣。 |
|
運行的結果和生命周期狀態。 |
|
|
觸發這個運行的cron調度如果是引發的周期性調度程序。 |
|
|
執行的任務運行,如果任何。 |
|
|
工作的快照的集群規範這個運行時創建的。 |
|
|
集群用於此運行。如果指定運行使用一個新的集群,這一領域將一旦就業服務請求的集群運行。 |
|
|
用於此運行的參數。 |
|
|
|
這種運行成立於時代的時間毫秒(毫秒因為1/1/1970 UTC)。這可能不是工作任務的時候開始執行,例如,如果工作是計劃一個新的集群上運行,這是集群創建調用的時間。 |
|
|
設置集群的時間,以毫秒為單位。運行,運行在新集群的集群創建時間,運行現有的集群上運行這個時間應該很短。 |
|
|
的時間,以毫秒為單位執行JAR中的命令或筆記本,直到他們完成,失敗了,超時,被取消,或者遇到了一個意想不到的錯誤。 |
|
|
以毫秒為單位的時間花了終止集群和清理任何相關的工件。總運行時間的總和setup_duration, execution_duration, cleanup_duration。 |
|
|
這個跑在時代結束毫秒的時間(單位為毫秒自1/1/1970 UTC)。這個字段將被設置為0,如果工作仍在運行。 |
|
觸發發射這個運行的類型。 |
|
|
|
一個可選的名稱。默認值是 |
|
|
運行的詳細信息頁麵的URL。 |
|
|
運行的類型。
|
|
|
序列號的嚐試引發工作跑。的初始嚐試運行的attempt_number 0。如果初始運行失敗,工作有一個重試策略( |
RunJobTask
字段名 |
類型 |
描述 |
---|---|---|
|
|
工作的惟一標識符。這個字段是必需的。 |
RunLifeCycleState
的生命周期狀態運行。允許狀態轉換:
等待
- >運行
- >終止
- >終止
等待
- >跳過
等待
- >INTERNAL_ERROR
運行
- >INTERNAL_ERROR
終止
- >INTERNAL_ERROR
狀態 |
描述 |
---|---|
|
運行觸發。如果沒有一個活躍的運行相同的工作,集群正在準備和執行上下文。如果已經有一個活躍的運行相同的工作,運行就會立即進入 |
|
正在運行的任務執行。 |
|
這個運行的任務已經完成,集群和執行上下文被清理幹淨。 |
|
這個運行的任務已經完成,集群和執行上下文已經清理幹淨。這個狀態是終端。 |
|
這流產是因為先前跑同樣的工作已經活躍。這個狀態是終端。 |
|
異常狀態,表示失敗的工作服務,如長期網絡故障。如果一個運行在一個新的集群中結束 |
RunParameters
這個運行參數。隻有jar_params之一,python_params
,或者notebook_params應該中指定現在
請求,這取決於類型的工作任務。工作與火花JAR任務或Python任務列表的定位參數,使用筆記本電腦和工作任務鍵值映射。
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的 |
參數列表工作與火花JAR任務,例如 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 |
|
的地圖ParamPair |
與筆記本從鍵值映射工作任務,如。 如果未指定 notebook_params不能結合jar_params指定。 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 這個字段(即的JSON表示。 |
|
一個數組的 |
與Python任務工作的參數列表,如 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 重要的 這些參數隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。 |
|
一個數組的 |
工作引發的參數列表提交的任務,例如 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 重要的 這些參數隻接受拉丁字符(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。 |
RunResultState
的結果狀態運行。
如果
life_cycle_state
=終止
:如果有一個任務運行,結果是保證是可用的,它表明任務的結果。如果
life_cycle_state
=等待
,運行
,或跳過
,結果不可用狀態。如果
life_cycle_state
=終止
或lifecyclestate =INTERNAL_ERROR
:結果狀態可用如果運行一個任務和管理開始。
一旦可用,結果狀態不會改變。
狀態 |
描述 |
---|---|
|
任務成功完成。 |
|
任務完成的一個錯誤。 |
|
達到超時後運行停止。 |
|
運行在用戶請求被取消了。 |
RunState
字段名 |
類型 |
描述 |
---|---|---|
|
的描述運行的運行生命周期中的當前位置。這個領域在響應中總是可用的。 |
|
|
的結果狀態運行。如果不可用,反應不包括這個領域。看到RunResultState對細節result_state的可用性。 |
|
|
|
由用戶手動運行是否被取消或調度程序,因為運行超時。 |
|
|
當前狀態的描述性信息。這個字段是結構化的,它的確切格式是可能發生變化。 |
SparkEnvPair
引發環境變量鍵-值對。
重要的
當指定環境變量的工作集群,這個數據結構隻接受拉丁字符的字段(ASCII字符集)。使用非ascii字符將返回一個錯誤。無效的例子,非ascii字符是中國人,日本漢字,emojis。
類型 |
描述 |
---|---|
|
一個環境變量的名字。 |
|
環境變量的值。 |
SparkJarTask
字段名 |
類型 |
描述 |
---|---|---|
|
|
自04/2016棄用。提供一個 |
|
|
類的全名包含要執行的主要方法。這個類必須包含在一個JAR作為圖書館提供。 代碼應該使用 |
|
一個數組的 |
傳遞的參數的主要方法。 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 |
SparkPythonTask
字段名 |
類型 |
描述 |
---|---|---|
|
|
執行Python文件的URI。DBFS路徑支持。這個字段是必需的。 |
|
一個數組的 |
命令行參數傳遞給Python文件。 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 |
SparkSubmitTask
重要的
您可以調用火花提交任務隻有在新的集群。
new_cluster規範中,
庫
和spark_conf
不受支持。相反,使用——罐子
和——py-files
添加Java和Python庫——設計
設置火花配置。主
,deploy-mode
,executor-cores
是由磚自動配置;你不能指定參數。默認情況下,火花提交工作使用所有可用的內存(不含磚服務保留內存)。你可以設置
——driver-memory
,——executor-memory
一個較小的值,留一些餘地堆使用。的
——罐子
,——py-files
,——文件
參數支持DBFS路徑。
例如,假設JAR DBFS上傳,您可以運行SparkPi
通過設置以下參數。
{“參數”:(”——階級”,“org.apache.spark.examples.SparkPi”,“dbfs: /道路/ / examples.jar”,“10”]}
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的 |
命令行參數傳遞給火花提交。 使用通過上下文對工作遇到的工作任務設置參數包含工作運行的信息。 |
TriggerType
這些類型的觸發器可以運行。
類型 |
描述 |
---|---|
|
安排定期引發運行時,比如一個cron調度程序。 |
|
一個火一個運行時間觸發。發生這種情況你觸發了一個運行在通過UI需求或API。 |
|
表明一個運行觸發的重試之前運行失敗。這發生在你請求重新運行工作的失敗。 |
ViewItem
導出的內容是在HTML格式。例如,如果視圖導出儀表板,一個HTML字符串返回每一個儀表板。
字段名 |
類型 |
描述 |
---|---|---|
|
|
視圖的內容。 |
|
|
視圖項的名稱。在代碼視圖的情況下,筆記本電腦的名字。在儀表板視圖,儀表板的名字。 |
|
視圖條目的類型。 |
ViewType
類型 |
描述 |
---|---|
|
筆記本查看項目。 |
|
儀表板視圖條目。 |
Webhook
字段名 |
類型 |
描述 |
---|---|---|
|
|
標識符引用係統通知目的地。這個字段是必需的。 |
WebhookNotifications
字段名 |
類型 |
描述 |
---|---|---|
|
一個數組的Webhook |
一個可選列表係統目的地運行開始時得到通知。如果沒有指定在創造就業機會、重置或更新列表為空,不發送通知。最多3可以指定的目的地 |
|
一個數組的Webhook |
一個可選列表係統目的地運行成功完成時得到通知。跑步被認為是成功完成如果結尾 |
|
一個數組的Webhook |
一個可選的係統的目的地列表完成運行失敗時得到通知。跑步被認為已經完成了如果它以一個失敗 |
|
一個數組的Webhook |
一個可選的通知係統的目的地列表當運行的持續時間超過指定的閾值 |