你已經熟悉了三角洲住表(DLT)通過快速入門和入門指南。現在是時候解決創建一個DLT為雲存儲的數據管道一行代碼。這是將當你開始:
創建或更新直播表< table_name > SELECT * FROM cloud_files(<雲存儲位置>,<格式>)
雲存儲位置可以AWS S3 (S3: / /), Azure數據存儲Gen2湖(ADLS Gen2 abfss: / /), GCP雲存儲(GCS, gs: / /), Azure Blob存儲(wasbs: / /), ADLS Gen1 (adl: / /)。磚文件係統(DBFS DBFS: /)也是一個選擇,但不建議用於生產管道。
看看這五個竅門讓DLT運行這一行代碼。
1。使用自動加載程序來攝取文件DLT
2。讓DLT管道運行您的筆記本
3所示。使用JSON集群配置訪問你的存儲位置
4所示。為你指定一個目標數據庫表(年代)
5。使用全部刷新所有的DLT管道代碼和設置變化
小提示# 1:使用自動加載程序來攝取文件DLT
知識檢查:自動加載器是什麼?
自動加載器提供了一個結構化的流媒體稱為cloud_files來源。給定一個輸入在雲端文件存儲目錄路徑,cloud_files源自動流程為到達的新文件,選擇也處理現有文件的目錄。自動加載器可以攝取JSON、CSV、拚花,AVRO、獸人、文本和BINARYFILE文件格式。自動加載程序支持Python和SQL三角洲生活表。
例如:汽車與S3裝載機
創建或更新直播表my_S3_data SELECT * FROM cloud_files (s3a: / / your_datbase_name, json)
你的下一個步驟
更多的資源
小提示# 2:讓DLT管道運行您的筆記本
知識檢查:DLT是什麼?
三角洲生活表是一個框架為構建可靠、可維護、可測試的數據處理管道。你定義轉換執行數據,和δ生活表管理任務編排,集群管理、監控、數據質量和錯誤處理。閱讀更多三角洲的生活表的介紹(AWS][Azure][GCP]。
例子
你的下一個步驟
更多的資源
小提示# 3:使用JSON集群配置訪問你的存儲位置
知識檢查:我怎麼修改DLT設置使用JSON ?
三角洲生活表設置表示為JSON和三角洲住表中可以修改UI (AWS][Azure][GCP]。
例子:一個S3實例配置文件添加到通過JSON DLT集群配置
“集群”:[{“標簽”:“默認”,“aws_attributes”: {“instance_profile_arn”:“在攻擊:aws:…”}, "autoscale": { "min_workers": 1, "max_workers": 5 } } ]
你的下一個步驟
更多的資源
小提示# 4:為你指定目標數據庫表(s)
知識檢查:為什麼設定了一個目標?
目標設置添加到配置表的數據庫名稱。設定一個目標是使用你的新表(s)後更容易啟動管道。如果你不創造管道在UI中設定了一個目標,你可以回去JSON中設定了一個目標。
例子
UI設置目標的新管道
JSON編輯現有管道的目標(見小提示# 3)
你的下一個步驟
select * from my_database.table_name
更多的資源
冰山# 5:全麵刷新所有的管道代碼和設置變化
知識檢查:管道更新是什麼?
在您創建的管道和準備運行它,你開始一個更新。一個更新如下:
例子
更多的資源
所以,你的DLT +雲存儲運行如何?在線程放棄你的問題和建議!