三角洲生活表API指南
三角洲生活表API允許您創建、編輯、刪除、啟動、並查看詳細信息管道。
重要的
訪問數據磚REST api,你必須進行身份驗證。
創建一個管道
端點 |
HTTP方法 |
---|---|
|
|
創建一個新的三角洲住表管道。
例子
這個示例創建了一個新的管道觸發。
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道\——數據@pipeline-settings.json
pipeline-settings.json
:
{“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“連續”:假}
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
編輯一個管道
端點 |
HTTP方法 |
---|---|
|
|
更新現有管道的設置。
例子
這個示例添加一個目標
與ID參數管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5\——數據@pipeline-settings.json
pipeline-settings.json
{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:假}
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
開始一個管道更新
端點 |
HTTP方法 |
---|---|
|
|
開始一個更新的管道。你可以開始一個更新整個管道圖,或選擇性更新特定的表。
例子
開始全麵刷新
這個例子開始更新與管道全部刷新IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
開始一個更新的選擇表
這個例子開始更新,刷新sales_orders_cleaned
和sales_order_in_chicago
管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
開始全麵更新選中的表
這個例子開始一個更新的sales_orders_cleaned
和sales_order_in_chicago
表和一個更新的全部刷新beplay体育app下载地址
和sales_orders_raw
管道中的表的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
。
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新\——數據”{refresh_selection”:“sales_orders_cleaned”、“sales_order_in_chicago”,“full_refresh_selection”:[“客戶”、“salbeplay体育app下载地址es_orders_raw”]}”
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
請求結構
字段名 |
類型 |
描述 |
---|---|---|
full_refresh |
|
是否再處理所有數據。如果 這個字段是可選的。 默認值是 返回一個錯誤 |
refresh_selection |
一個數組的 |
表更新的列表。使用 這個字段是可選的。如果兩個 返回一個錯誤如果:
|
full_refresh_selection |
一個數組的 |
一個表更新,刷新列表。使用 這個字段是可選的。如果兩個 返回一個錯誤如果:
|
得到管道更新請求的狀態
端點 |
HTTP方法 |
---|---|
|
|
得到了相關的管道更新的狀態和信息request_id
,在那裏request_id
是一個獨特的標識符的請求啟動管道更新。如果更新重試或重新啟動,那麼新的更新request_id繼承。
例子
管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
,這個例子返回狀態和信息更新與請求ID相關聯a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429
:
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /請求/ a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
響應
{“狀態”:“終止”,“latest_update”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“90 da8183 - 89 - de - 4715 - b5a9 c243e67f0093”,“配置”:{“id”:“aae89b88-e97e-40c4-8e1a-1b7ac76657e8”,“名稱”:“零售銷售(SQL)”,“存儲”:“/用戶/用戶名/數據”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:【{“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:【{“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“連續”:假,“發展”:真正的,“光子”:真正的,“版”:“高級”,“通道”:“當前”},“原因”:“API_CALL”,“狀態”:“完成”,“cluster_id”:“1234 - 567891 abcde123”,“creation_time”:1664304117145,“full_refresh”:假,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}
響應結構
字段名 |
類型 |
描述 |
---|---|---|
狀態 |
|
管道的狀態更新請求。之一
|
pipeline_id |
|
管道的惟一標識符。 |
update_id |
|
更新的惟一標識符。 |
配置 |
管道設置。 |
|
導致 |
|
觸發更新。之一 |
狀態 |
|
的狀態更新。之一 |
cluster_id |
|
集群運行更新的標識符。 |
creation_time |
|
創建的更新時的時間戳。 |
full_refresh |
|
這是否更新重置所有表之前運行 |
refresh_selection |
一個數組的 |
沒有完整的刷新表更新的列表。 |
full_refresh_selection |
一個數組的 |
一個表更新,刷新列表。 |
request_id |
|
請求的惟一標識符開始更新。這是返回的值更新請求。如果更新重試或重新啟動,那麼新的更新request_id繼承。然而, |
停止任何活動管道更新
端點 |
HTTP方法 |
---|---|
|
|
停止任何活動管道更新。如果沒有更新運行時,該請求是一個空操作。
連續管道,管道執行暫停。表目前處理完成刷新,但下遊表不刷新。在下一個管道更新,三角洲生活表執行刷新所選表沒有完成處理,和簡曆處理剩餘的管道DAG。
引起管道,管道停止執行。表目前處理完成刷新,但下遊表不刷新。在下一個管道更新,三角洲住表刷新所有表。
管道事件列表
端點 |
HTTP方法 |
---|---|
|
|
獲取事件的管道。
請求結構
字段名 |
類型 |
描述 |
---|---|---|
page_token |
|
返回的頁麵標記之前的電話。這個字段是互斥的所有字段在此請求max_results除外。返回一個錯誤如果max_results以外的任何字段設置這個字段設置。 這個字段是可選的。 |
max_results |
|
返回條目的最大數量在一個頁麵。係統可能還不到 這個字段是可選的。 默認值為25。 最大值是100。返回一個錯誤的值 |
order_by |
|
一個字符串顯示時間戳排序順序的結果,例如, 可以升序或降序排序。默認情況下,事件按降序返回的時間戳。 這個字段是可選的。 |
過濾器 |
|
結果的標準來選擇一個子集,使用sql的語法表達。支持過濾器:
支持複合表達式,例如: 這個字段是可選的。 |
得到管道的細節
端點 |
HTTP方法 |
---|---|
|
|
得到管道的詳細信息,包括管道設置和最近的更新。
例子
本例中獲得與ID細節的管道a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
響應
{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“規範”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:假},“狀態”:“空閑”,“cluster_id”:“1234 - 567891 abcde123”,“名稱”:“維基百科”管道(SQL),“creator_user_name”:“用戶名”,“latest_updates”:({“update_id”:“8 a0b6d02 - fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:37:30.279z”},{“update_id”:“a72c08ba——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“取消”,“creation_time”:“2021 - 08 - 13 - t00:35:51.902z”},{“update_id”:“ac37d924——fbd0 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“失敗”,“creation_time”:“2021 - 08 - 13 - t00:33:38.565z”}),“run_as_user_name”:“用戶名”}
響應結構
字段名 |
類型 |
描述 |
---|---|---|
pipeline_id |
|
管道的惟一標識符。 |
規範 |
管道設置。 |
|
狀態 |
|
管道的狀態。之一 如果狀態= |
cluster_id |
|
集群運行管道的標識符。 |
的名字 |
|
這個管道的用戶友好的名稱。 |
creator_user_name |
|
用戶名的管道的創造者。 |
latest_updates |
一個數組的UpdateStateInfo |
管道狀態最近的更新,要求先用最新的更新。 |
run_as_user_name |
|
管道運行時的用戶名。 |
獲得更新的細節
端點 |
HTTP方法 |
---|---|
|
|
管道更新的詳細信息。
例子
這個例子得到更新的細節9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003
管道的IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道/ a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 /更新/ 9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
響應
{“更新”:{“pipeline_id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“update_id”:“9 a84f906 - fc51 - 11 - eb - 9 - a03 - 0242 ac130003”,“配置”:{“id”:“a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5”,“名稱”:“維基百科”管道(SQL),“存儲”:“/用戶/用戶名/數據”,“配置”:{“pipelines.numStreamRetryAttempts”:“5”},“集群”:({“標簽”:“默認”,“自動定量”:{“min_workers”:1,“max_workers”:5,“模式”:“增強”}}),“庫”:({“筆記本”:{“路徑”:“/用戶/用戶名/ DLT筆記本/δ生活表快速入門(SQL)”}}),“目標”:“wikipedia_quickstart_data”,“連續”:假,“發展”:假},“原因”:“API_CALL”,“狀態”:“完成”,“creation_time”:1628815050279,“full_refresh”:真正的,“request_id”:“a83d9f7c d798 - 4 - fd5 aa39 - 301 b6e6f4429”}}
響應結構
字段名 |
類型 |
描述 |
---|---|---|
pipeline_id |
|
管道的惟一標識符。 |
update_id |
|
這個更新的惟一標識符。 |
配置 |
管道設置。 |
|
導致 |
|
觸發更新。之一 |
狀態 |
|
的狀態更新。之一 |
cluster_id |
|
集群運行管道的標識符。 |
creation_time |
|
創建的更新時的時間戳。 |
full_refresh |
|
是否這是一個完整的刷新。如果這是真的,所有管道表在運行更新之前重置。 |
列表管道
端點 |
HTTP方法 |
---|---|
|
|
δ住表列表中定義的管道係統。
例子
這個示例檢索名稱包含細節管道快速入門
:
請求
curl——netrc - x\https:// < databricks-instance > / api / 2.0 /管道?過濾器=名字% 20 25快速入門% % 20% 27% 25% 27
替換:
< databricks-instance >
與磚工作區實例名例如,dbc-a1b2345c-d6e7.cloud.m.eheci.com
。
這個示例使用. netrc文件。
響應
{“狀態”:({“pipeline_id”:“e0f01758——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“空閑”,“名稱”:“DLT快速入門(Python)”,“latest_updates”:({“update_id”:“ee9ae73e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“完成”,“creation_time”:“2021 - 08 - 13 - t00:34:21.871z”}),“creator_user_name”:“用戶名”},{“pipeline_id”:“f4c82f5e——fc61 - 11 - eb - 9 - a03 - 0242 ac130003”,“狀態”:“空閑”,“名稱”:“我的DLT快速入門示例”,“creator_user_name”:“用戶名”}),“next_page_token”:“eyJ…= =”,“prev_page_token”:“eyJ . . x9”}
請求結構
字段名 |
類型 |
描述 |
---|---|---|
page_token |
|
返回的頁麵標記之前的電話。 這個字段是可選的。 |
max_results |
|
返回條目的最大數量在一個頁麵。係統可能還不到 這個字段是可選的。 默認值為25。 最大值是100。返回一個錯誤的值 |
order_by |
一個數組的 |
一個字符串列表,指定結果的順序,例如, 這個字段是可選的。 |
過濾器 |
|
選擇一個子集的結果根據指定的標準。 支持過濾器:
不支持複合過濾器。 這個字段是可選的。 |
響應結構
字段名 |
類型 |
描述 |
---|---|---|
狀態 |
一個數組的PipelineStateInfo |
事件列表匹配請求的標準。 |
next_page_token |
|
如果存在,一個令牌來獲取下一個頁麵的事件。 |
prev_page_token |
|
如果存在,一個令牌來獲取事件的前一頁。 |
數據結構
在本節中:
PipelinesAutoScale
屬性定義一個集群自動定量。
字段名 |
類型 |
描述 |
---|---|---|
min_workers |
|
工人的最低數量的集群可以縮小時沒有得到充分的利用。這也是最初的工人數量集群創建後。 |
max_workers |
|
工人的最大數量的集群可以擴大當超載。必須嚴格大於min_workers max_workers。 |
模式 |
|
集群的自動定量模式: |
PipelineLibrary
規範管道依賴性。
字段名 |
類型 |
描述 |
---|---|---|
筆記本 |
筆記本的路徑定義三角洲住表數據集。磚的路徑必須工作區,例如: |
PipelineSettings
管道的設置部署。
字段名 |
類型 |
描述 |
---|---|---|
id |
|
這個管道的惟一標識符。 標識符是由三角洲生活表係統,創建管道時,不能提供。 |
的名字 |
|
一個用戶友好的名稱。 這個字段是可選的。 默認情況下,管道的名稱必須是唯一的。使用重複名稱,設置 |
存儲 |
|
路徑DBFS目錄用於存儲檢查點和表創建的管道。 這個字段是可選的。 係統使用一個默認的位置,如果這個字段是空的。 |
配置 |
的地圖 |
鍵值對列表添加到火花集群運行管道的配置。 這個字段是可選的。 元素必須被格式化為鍵:值對。 |
集群 |
一個數組的PipelinesNewCluster |
數組的規範集群運行管道。 這個字段是可選的。 如果不指定這個值,係統將選擇一個默認集群配置管道。 |
庫 |
一個數組的PipelineLibrary |
筆記本包含管道代碼和運行管道所需的任何依賴性。 |
目標 |
|
堅持管道輸出數據的數據庫名稱。 看到從三角洲住表發布數據蜂巢metastore管道為更多的信息。 |
連續 |
|
是否這是一個連續的管道。 這個字段是可選的。 默認值是 |
發展 |
|
是否在開發模式下運行管道。 這個字段是可選的。 默認值是 |
光子 |
|
是否啟用了光子加速管道。 這個字段是可選的。 默認值是 |
通道 |
|
三角洲生活表釋放通道指定運行時版本使用管道。支持的值是:
這個字段是可選的。 默認值是 |
版 |
|
三角洲生活表產品版本運行管道:
這個字段是可選的。 默認值是 |
PipelineStateInfo
管道的狀態,最近的狀態更新和相關資源的信息。
字段名 |
類型 |
描述 |
---|---|---|
狀態 |
|
管道的狀態。之一 |
pipeline_id |
|
管道的惟一標識符。 |
cluster_id |
|
集群運行管道的惟一標識符。 |
的名字 |
|
的用戶友好的名稱。 |
latest_updates |
一個數組的UpdateStateInfo |
管道狀態最近的更新,要求先用最新的更新。 |
creator_user_name |
|
用戶名的管道的創造者。 |
run_as_user_name |
|
管道運行時的用戶名。這是一個隻讀值來自管道所有者。 |
PipelinesNewCluster
管道集群規範。
三角洲生活表係統設置以下屬性。這些屬性不能由用戶配置:
spark_version
字段名 |
類型 |
描述 |
---|---|---|
標簽 |
|
集群的標簽規範 這個字段是可選的。默認值是 |
spark_conf |
一個對象包含一組可選的,指定的火花配置鍵-值對。還可以通過一係列額外的司機和執行人通過JVM選項 火花參看示例: |
|
aws_attributes |
屬性相關的集群運行在Amazon Web服務。如果沒有指定在創建集群,將使用默認值。 |
|
node_type_id |
|
這一領域的編碼,通過單個值,可用的資源的火花節點集群。例如,火花節點可以提供和優化內存或計算密集型工作負載可用節點類型的列表可以通過使用檢索節點類型列表API調用。 |
driver_node_type_id |
|
火花的節點類型的司機。這個字段是可選的;如果設置,驅動節點類型將被設置為相同的值 |
ssh_public_keys |
一個數組的 |
SSH公鑰的內容將被添加到每個火花節點集群。可以使用相應的私鑰與用戶名登錄 |
custom_tags |
一個對象包含對集群資源的一組標記。磚標簽的所有集群資源除了default_tags與這些標簽。 請注意:
|
|
cluster_log_conf |
長期存儲的配置提供火花日誌目的地。隻能指定一個目標為一個集群。如果這個配置,日誌將被交付給每一個目的地 |
|
spark_env_vars |
一個對象包含一組可選的,鍵值指定的環境變量。鍵-值對的形式(X, Y)出口(也就是說, 為了指定一個額外的組 示例引發環境變量: |
|
init_scripts |
一個數組的InitScriptInfo |
存儲的配置初始化腳本。可以指定任意數量的目的地。所提供的腳本的順序執行。如果 |
instance_pool_id |
|
可選的ID集群所屬實例池。看到創建一個池。 |
driver_instance_pool_id |
|
可選的ID用於驅動節點實例池。您還必須指定 |
policy_id |
|
一個集群政策ID。 |
num_workers或自動定量 |
|
如果num_workers,工人數量節點集群應該。一個集群有一個火花司機和num_workers執行人總共num_workers + 1火花節點。 當閱讀一個集群的屬性,這一領域的反映所需的工人數量,而不是工人的實際數量。例如,如果一個集群的大小從5到10的工人,這一領域被更新以反映目標大小為10的工人,而執行者中列出的工人逐漸增加從5到10新節點配置。 如果自動定量,參數需要根據負載自動上下集群規模。 這個字段是可選的。 |
apply_policy_default_values |
|
是否使用政策失蹤的集群屬性的默認值。 |
UpdateStateInfo
管道的當前狀態更新。
字段名 |
類型 |
描述 |
---|---|---|
update_id |
|
這個更新的惟一標識符。 |
狀態 |
|
的狀態更新。之一 |
creation_time |
|
當創建此更新的時間戳。 |