三角洲生活表API指南

重要的

這篇文章的內容已經退休,可能不會被更新。看到三角洲生活表磚的REST API參考。

三角洲生活表API允許您創建、編輯、刪除、啟動、並查看詳細信息管道。

重要的

訪問數據磚REST api,你必須進行身份驗證

創建一個管道

端點

HTTP方法

2.0 /管道

帖子

創建一個新的三角洲住表管道。

例子

這個示例創建了一個新的管道觸發。

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道\——數據@pipeline-settings.json

pipeline-settings.json:

{“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“連續”:}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”}

請求結構

看到PipelineSettings

響應結構

字段名

類型

描述

pipeline_id

字符串

新創建的管道的惟一標識符。

編輯一個管道

端點

HTTP方法

2.0 /管道/ {pipeline_id}

更新現有管道的設置。

例子

這個示例添加一個目標與ID參數管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5\——數據@pipeline-settings.json

pipeline-settings.json

{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:}

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

請求結構

看到PipelineSettings

刪除一個管道

端點

HTTP方法

2.0 /管道/ {pipeline_id}

刪除

從三角洲住表刪除一條輸油管道係統。

例子

這個例子刪除ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求

curl——netrc - x刪除\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

開始一個管道更新

端點

HTTP方法

2.0 /管道/ {pipeline_id} /更新

帖子

開始一個更新的管道。你可以開始一個更新整個管道圖,或選擇性更新特定的表。

例子

開始全麵刷新

這個例子開始更新與管道全部刷新IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——數據”{“full_refresh”:“true”}’

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

開始一個更新的選擇表

這個例子開始更新,刷新sales_orders_cleanedsales_order_in_chicago管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——數據”{refresh_selection”: [“sales_orders_cleaned”、“sales_order_in_chicago”]}”

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

開始全麵更新選中的表

這個例子開始一個更新的sales_orders_cleanedsales_order_in_chicago表和一個更新的全部刷新beplay体育app下载地址sales_orders_raw管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——數據”{refresh_selection”:“sales_orders_cleaned”、“sales_order_in_chicago”,“full_refresh_selection”:[“客戶”、“salbeplay体育app下载地址es_orders_raw”]}”

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應
{“update_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”,“request_id”:“a1b23c4d - 5 - e6f - 78 - gh - 91 i2 - 3 - j4k5lm67no8”}

請求結構

字段名

類型

描述

full_refresh

布爾

是否再處理所有數據。如果真正的三角洲住表係統重置所有表複位之前運行的管道。

這個字段是可選的。

默認值是

返回一個錯誤full_refesh是真的,要麼refresh_selectionfull_refresh_selection是集。

refresh_selection

一個數組的字符串

表更新的列表。使用refresh_selection開始的一組選定的表刷新管道圖。

這個字段是可選的。如果兩個refresh_selectionfull_refresh_selection是空的,整個管道圖刷新。

返回一個錯誤如果:

  • full_refesh是真的,refresh_selection是集。

  • 一個或多個指定的表不存在的管道圖。

full_refresh_selection

一個數組的字符串

一個表更新,刷新列表。使用full_refresh_selection開始一個更新的一組選定的表。指定表的狀態重置前三角洲住表係統開始更新。

這個字段是可選的。如果兩個refresh_selectionfull_refresh_selection是空的,整個管道圖刷新。

返回一個錯誤如果:

  • full_refesh是真的,refresh_selection是集。

  • 一個或多個指定的表不存在的管道圖。

  • 一個或多個指定的表不是複位。

響應結構

字段名

類型

描述

update_id

字符串

新創建的更新的惟一標識符。

request_id

字符串

請求的惟一標識符開始更新。

得到管道更新請求的狀態

端點

HTTP方法

2.0 /管道/ {pipeline_id} /請求/ {request_id}

得到

得到了相關的管道更新的狀態和信息request_id,在那裏request_id是一個獨特的標識符的請求啟動管道更新。如果更新重試或重新啟動,那麼新的更新request_id繼承。

例子

管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5,這個例子返回狀態和信息更新與請求ID相關聯a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /請求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應

{“狀態”:“終止”,“latest_update”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”,“配置”:{“id”:“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”,“名稱”:“零售銷售(SQL)”,“存儲”:“/用戶/用戶名/數據”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:【{“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:【{“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“連續”:,“發展”:真正的,“光子”:真正的,“版”:“高級”,“通道”:“當前”},“原因”:“API_CALL”,“狀態”:“完成”,“cluster_id”:“1234 - 567891 abcde123”,“creation_time”:1664304117145,“full_refresh”:,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

響應結構

字段名

類型

描述

狀態

字符串

管道的狀態更新請求。之一

  • 活躍的:一個更新請求積極運行或可能會在一個新的更新重試。

  • 終止:請求終止,不會重試或重新啟動。

pipeline_id

字符串

管道的惟一標識符。

update_id

字符串

更新的惟一標識符。

配置

PipelineSettings

管道設置。

導致

字符串

觸發更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE,SCHEMA_CHANGE,JOB_TASK,或USER_ACTION

狀態

字符串

的狀態更新。之一排隊,創建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,運行,停止,完成,失敗的,或取消了

cluster_id

字符串

集群運行更新的標識符。

creation_time

INT64

創建的更新時的時間戳。

full_refresh

布爾

這是否更新重置所有表之前運行

refresh_selection

一個數組的字符串

沒有完整的刷新表更新的列表。

full_refresh_selection

一個數組的字符串

一個表更新,刷新列表。

request_id

字符串

請求的惟一標識符開始更新。這是返回的值更新請求。如果更新重試或重新啟動,那麼新的更新request_id繼承。然而,update_id將會不同。

停止任何活動管道更新

端點

HTTP方法

2.0 /管道/ {pipeline_id} /停止

帖子

停止任何活動管道更新。如果沒有更新運行時,該請求是一個空操作。

連續管道,管道執行暫停。表目前處理完成刷新,但下遊表不刷新。在下一個管道更新,三角洲生活表執行刷新所選表沒有完成處理,和簡曆處理剩餘的管道DAG。

引起管道,管道停止執行。表目前處理完成刷新,但下遊表不刷新。在下一個管道更新,三角洲住表刷新所有表。

例子

這個例子停止更新的管道和IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /停止

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

管道事件列表

端點

HTTP方法

2.0 /管道/ {pipeline_id} /事件

得到

獲取事件的管道。

例子

這個示例檢索最多5事件ID的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /事件? max_results=5

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

請求結構

字段名

類型

描述

page_token

字符串

返回的頁麵標記之前的電話。這個字段是互斥的所有字段在此請求max_results除外。返回一個錯誤如果max_results以外的任何字段設置這個字段設置。

這個字段是可選的。

max_results

INT32

返回條目的最大數量在一個頁麵。係統可能還不到max_results事件響應,即使有更多的事件。

這個字段是可選的。

默認值為25。

最大值是100。返回一個錯誤的值max_results大於100。

order_by

字符串

一個字符串顯示時間戳排序順序的結果,例如,["時間戳asc”)

可以升序或降序排序。默認情況下,事件按降序返回的時間戳。

這個字段是可選的。

過濾器

字符串

結果的標準來選擇一個子集,使用sql的語法表達。支持過濾器:

  • 水平= '信息'(或警告錯誤)

  • 水平('信息',“警告”)

  • id =”(標識符)

  • 時間戳>“時間戳”(或> =,<,< =,=)

支持複合表達式,例如:水平('錯誤',“警告”)時間戳>2021 - 07 - 22 t06:37:33.083z

這個字段是可選的。

響應結構

字段名

類型

描述

事件

一個管道事件數組。

事件列表匹配請求的標準。

next_page_token

字符串

如果存在,一個令牌來獲取下一個頁麵的事件。

prev_page_token

字符串

如果存在,一個令牌來獲取事件的前一頁。

得到管道的細節

端點

HTTP方法

2.0 /管道/ {pipeline_id}

得到

得到管道的詳細信息,包括管道設置和最近的更新。

例子

本例中獲得與ID細節的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應

{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“規範”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:},“狀態”:“空閑”,“cluster_id”:“1234 - 567891 abcde123”,“名稱”:“維基百科”管道(SQL),“creator_user_name”:“用戶名”,“latest_updates”:({“update_id”:“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:37:30.279z”},{“update_id”:“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“取消”,“creation_time”:“2021 - 08 - 13 - t00:35:51.902z”},{“update_id”:“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“失敗”,“creation_time”:“2021 - 08 - 13 - t00:33:38.565z”}),“run_as_user_name”:“用戶名”}

響應結構

字段名

類型

描述

pipeline_id

字符串

管道的惟一標識符。

規範

PipelineSettings

管道設置。

狀態

字符串

管道的狀態。之一閑置運行

如果狀態=運行,那麼至少有一個活躍的更新。

cluster_id

字符串

集群運行管道的標識符。

的名字

字符串

這個管道的用戶友好的名稱。

creator_user_name

字符串

用戶名的管道的創造者。

latest_updates

一個數組的UpdateStateInfo

管道狀態最近的更新,要求先用最新的更新。

run_as_user_name

字符串

管道運行時的用戶名。

獲得更新的細節

端點

HTTP方法

2.0 /管道/ {pipeline_id} /更新/ {update_id}

得到

管道更新的詳細信息。

例子

這個例子得到更新的細節9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應

{“更新”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”,“配置”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:,“發展”:},“原因”:“API_CALL”,“狀態”:“完成”,“creation_time”:1628815050279,“full_refresh”:真正的,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}

響應結構

字段名

類型

描述

pipeline_id

字符串

管道的惟一標識符。

update_id

字符串

這個更新的惟一標識符。

配置

PipelineSettings

管道設置。

導致

字符串

觸發更新。之一API_CALL,RETRY_ON_FAILURE,SERVICE_UPGRADE

狀態

字符串

的狀態更新。之一排隊,創建WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,運行,停止,完成,失敗的,或取消了

cluster_id

字符串

集群運行管道的標識符。

creation_time

INT64

創建的更新時的時間戳。

full_refresh

布爾

是否這是一個完整的刷新。如果這是真的,所有管道表在運行更新之前重置。

列表管道

端點

HTTP方法

2.0 /管道/

得到

δ住表列表中定義的管道係統。

例子

這個示例檢索名稱包含細節管道快速入門:

請求

curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道?過濾器=名字% 20 25快速入門% % 20% 27% 25% 27

替換:

  • < databricks-instance >與磚工作區實例名例如,1234567890123456.7.gcp.m.eheci.com

這個示例使用. netrc文件。

響應

{“狀態”:({“pipeline_id”:“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“空閑”,“名稱”:“DLT快速入門(Python)”,“latest_updates”:({“update_id”:“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:34:21.871z”}),“creator_user_name”:“用戶名”},{“pipeline_id”:“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“空閑”,“名稱”:“我的DLT快速入門示例”,“creator_user_name”:“用戶名”}),“next_page_token”:“eyJ…= =”,“prev_page_token”:“eyJ . . x9”}

請求結構

字段名

類型

描述

page_token

字符串

返回的頁麵標記之前的電話。

這個字段是可選的。

max_results

INT32

返回條目的最大數量在一個頁麵。係統可能還不到max_results事件響應,即使有更多的事件。

這個字段是可選的。

默認值為25。

最大值是100。返回一個錯誤的值max_results大於100。

order_by

一個數組的字符串

一個字符串列表,指定結果的順序,例如,["的名字asc”)。支持order_by字段是id的名字。默認值是idasc

這個字段是可選的。

過濾器

字符串

選擇一個子集的結果根據指定的標準。

支持過濾器:

“筆記本= <路徑>”選擇參考提供的筆記本管道路徑。

的名字就像“(模式)”選擇管道與名稱相匹配模式。支持通配符,例如:的名字就像“%購物%”

不支持複合過濾器。

這個字段是可選的。

響應結構

字段名

類型

描述

狀態

一個數組的PipelineStateInfo

事件列表匹配請求的標準。

next_page_token

字符串

如果存在,一個令牌來獲取下一個頁麵的事件。

prev_page_token

字符串

如果存在,一個令牌來獲取事件的前一頁。

數據結構

ClusterLogConf

集群日誌路徑。

字段名

類型

描述

DbfsStorageInfo

DBFS集群日誌的位置。必須提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / cluster_log”}}

DbfsStorageInfo

DBFS存儲信息。

字段名

類型

描述

目的地

字符串

DBFS目的地。例子:dbfs: /我/路徑

FileStorageInfo

文件存儲信息。

請注意

這個位置類型隻能為集群設置使用磚容器服務

字段名

類型

描述

目的地

字符串

文件的目的地。例子:文件:/我/ file.sh

穀歌雲屬性

屬性設置集群創建期間有關穀歌雲。

字段名

類型

描述

use_preemptible_executors

BOOL

使用搶占的執行人。

google_service_account

字符串

集群使用穀歌服務帳戶的電子郵件地址與穀歌身份驗證。這個字段用於身份驗證的GCSBigQuery數據源。

boot_disk_size

INT32

大小,以GB磁盤的分配給每個實例。這個值必須在100 - 4096之間。

GCSStorageInfo

穀歌雲存儲(GCS)存儲信息。

字段名

類型

描述

目的地

字符串

文件的目的地。例子:g: / /……

InitScriptInfo

一個init腳本。

請注意

文件存儲類型(字段名:文件)隻能用於集群設置使用磚容器服務。看到FileStorageInfo

字段名

類型

描述

工作空間dbfs(棄用)

gcs

WorkspaceStorageInfo

DbfsStorageInfo(棄用)

GCSStorageInfo

init腳本的工作區位置。必須提供目的地。例如,{“工作區”:{“目的地”:“/用戶/ someone@domain.com/init_script.sh”}}

(棄用)DBFS init腳本的位置。必須提供目的地。例如,{“dbfs”:{“目的地”:“dbfs: / home / init_script”}}

穀歌雲存儲(GCS) init腳本的位置。必須提供目的地。例如,{“gs”:{“目的地”:“gs: / /……”}}

KeyValue

一個鍵-值對,指定配置參數。

字段名

類型

描述

關鍵

字符串

配置屬性名。

價值

字符串

配置屬性值。

NotebookLibrary

一個包含管道代碼規範一個筆記本。

字段名

類型

描述

路徑

字符串

筆記本的絕對路徑。

這個字段是必需的。

PipelinesAutoScale

屬性定義一個集群自動定量。

字段名

類型

描述

min_workers

INT32

工人的最低數量的集群可以縮小時沒有得到充分的利用。這也是最初的工人數量集群創建後。

max_workers

INT32

工人的最大數量的集群可以擴大當超載。必須嚴格大於min_workers max_workers。

模式

字符串

集群的自動定量模式:

PipelineLibrary

規範管道依賴性。

字段名

類型

描述

筆記本

NotebookLibrary

筆記本的路徑定義三角洲住表數據集。磚的路徑必須工作區,例如:{“筆記本”:{“路徑”:“/ my-pipeline-notebook-path”}}

PipelinesNewCluster

管道集群規範。

三角洲生活表係統設置以下屬性。這些屬性不能由用戶配置:

  • spark_version

字段名

類型

描述

標簽

字符串

集群的標簽規範默認的配置默認集群或維護集群配置維護。

這個字段是可選的。默認值是默認的

spark_conf

KeyValue

一個對象包含一組可選的,指定的火花配置鍵-值對。還可以通過一係列額外的司機和執行人通過JVM選項spark.driver.extraJavaOptionsspark.executor.extraJavaOptions分別。

火花參看示例:{“spark.speculation”:真的,“spark.streaming.ui.retainedBatches”:5}{“spark.driver.extraJavaOptions”:“- verbose: gc- xx: + PrintGCDetails "}

gcp_attributes

穀歌雲屬性

屬性相關的集群上運行穀歌雲。如果沒有指定在創建集群,將使用默認值。

node_type_id

字符串

這一領域的編碼,通過單個值,可用的資源的火花節點集群。例如,火花節點可以提供和優化內存或計算密集型工作負載可用節點類型的列表可以通過使用檢索集群API調用。

driver_node_type_id

字符串

火花的節點類型的司機。這個字段是可選的;如果設置,驅動節點類型將被設置為相同的值node_type_id上麵的定義。

ssh_public_keys

一個數組的字符串

SSH公鑰的內容將被添加到每個火花節點集群。可以使用相應的私鑰與用戶名登錄ubuntu在端口2200年。可以指定多達10個鑰匙。

custom_tags

KeyValue

一個對象包含對集群資源的一組標記。磚標簽的所有集群資源除了default_tags與這些標簽。

請注意:

  • 標簽上不支持遺留節點類型compute-optimized和memory-optimized等

  • 磚允許最多45定製標記。

cluster_log_conf

ClusterLogConf

長期存儲的配置提供火花日誌目的地。隻能指定一個目標為一個集群。如果這個配置,日誌將被交付給每一個目的地5分鍾。司機日誌的目的地<目標> / < cluster-ID > /司機的目的地,而執行者日誌<目標> / < cluster-ID > /執行器

spark_env_vars

KeyValue

一個對象包含一組可選的,鍵值指定的環境變量。鍵-值對的形式(X, Y)出口(也就是說,出口X = Y),而司機和工人。

為了指定一個額外的組SPARK_DAEMON_JAVA_OPTS,磚建議追加SPARK_DAEMON_JAVA_OPTS美元如以下示例所示。這確保了所有默認磚管理包括環境變量。

示例引發環境變量:{“SPARK_WORKER_MEMORY”:“28000米”,“SPARK_LOCAL_DIRS”:" / local_disk0 "}{“SPARK_DAEMON_JAVA_OPTS”:" $ SPARK_DAEMON_JAVA_OPTS-Dspark.shuffle.service.enabled = true "}

init_scripts

一個數組的InitScriptInfo

存儲的配置初始化腳本。可以指定任意數量的目的地。所提供的腳本的順序執行。如果cluster_log_conf指定,init腳本日誌發送到嗎<目標> / < cluster-ID > / init_scripts

instance_pool_id

字符串

可選的ID集群所屬實例池。看到創建一個池

driver_instance_pool_id

字符串

可選的ID用於驅動節點實例池。您還必須指定instance_pool_id。看到實例池API

policy_id

字符串

一個集群政策ID。

num_workers自動定量

INT32InitScriptInfo

如果num_workers,工人數量節點集群應該。一個集群有一個火花司機和num_workers執行人總共num_workers + 1火花節點。

當閱讀一個集群的屬性,這一領域的反映所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5到10的工人,這一領域被更新以反映目標大小為10的工人,而執行者中列出的工人逐漸增加從5到10新節點配置。

如果自動定量,參數需要根據負載自動上下集群規模。

這個字段是可選的。

apply_policy_default_values

布爾

是否使用政策失蹤的集群屬性的默認值。

PipelineSettings

管道的設置部署。

字段名

類型

描述

id

字符串

這個管道的惟一標識符。

標識符是由三角洲生活表係統,創建管道時,不能提供。

的名字

字符串

一個用戶友好的名稱。

這個字段是可選的。

默認情況下,管道的名稱必須是唯一的。使用重複名稱,設置allow_duplicate_names真正的在管道配置。

存儲

字符串

路徑DBFS目錄用於存儲檢查點和表創建的管道。

這個字段是可選的。

係統使用一個默認的位置,如果這個字段是空的。

配置

的地圖字符串:字符串

鍵值對列表添加到火花集群運行管道的配置。

這個字段是可選的。

元素必須被格式化為鍵:值對。

集群

一個數組的PipelinesNewCluster

數組的規範集群運行管道。

這個字段是可選的。

如果不指定這個值,係統將選擇一個默認集群配置管道。

一個數組的PipelineLibrary

筆記本包含管道代碼和運行管道所需的任何依賴性。

目標

字符串

堅持管道輸出數據的數據庫名稱。

看到從三角洲住表發布數據蜂巢metastore管道為更多的信息。

連續

布爾

是否這是一個連續的管道。

這個字段是可選的。

默認值是

發展

布爾

是否在開發模式下運行管道。

這個字段是可選的。

默認值是

光子

布爾

是否啟用了光子加速管道。

這個字段是可選的。

默認值是

通道

字符串

三角洲生活表釋放通道指定運行時版本使用管道。支持的值是:

  • 預覽測試管道與即將到來的改變δ生活表運行時。

  • 當前的使用當前δ生活表運行時版本。

這個字段是可選的。

默認值是當前的

字符串

三角洲生活表產品版本運行管道:

  • 核心支持流媒體接待工作負載。

  • 還支持流媒體接待工作負載和增加了對變化數據捕獲的支持(CDC)處理。

  • 先進的支持所有的功能版,增加了支持工作負載需要三角洲住表預期執行數據質量約束。

這個字段是可選的。

默認值是先進的

PipelineStateInfo

管道的狀態,最近的狀態更新和相關資源的信息。

字段名

類型

描述

狀態

字符串

管道的狀態。之一閑置運行

pipeline_id

字符串

管道的惟一標識符。

cluster_id

字符串

集群運行管道的惟一標識符。

的名字

字符串

的用戶友好的名稱。

latest_updates

一個數組的UpdateStateInfo

管道狀態最近的更新,要求先用最新的更新。

creator_user_name

字符串

用戶名的管道的創造者。

run_as_user_name

字符串

管道運行時的用戶名。這是一個隻讀值來自管道所有者。

UpdateStateInfo

管道的當前狀態更新。

字段名

類型

描述

update_id

字符串

這個更新的惟一標識符。

狀態

字符串

的狀態更新。之一排隊,創建,WAITING_FOR_RESOURCES,初始化,重置,SETTING_UP_TABLES,運行,停止,完成,失敗的,或取消了

creation_time

字符串

當創建此更新的時間戳。

WorkspaceStorageInfo

工作區存儲信息。

字段名

類型

描述

目的地

字符串

文件的目的地。例子:/用戶/ someone@domain.com/init_script.sh