取消
顯示的結果
而不是尋找
你的意思是:

Azure SQL數據導入數據磚

BearInTheWoods
新的貢獻者三世

你好,

我看著構建數據倉庫使用磚。大部分的數據將來自SQL Azure,和我們現在啟用了SQL Azure CDC捕獲變化。我也想進口這個沒有支付額外的像FiveTran連接器。

1。會合理的創建一個筆記本/δ住管道/源表嗎?

2。三角洲第一次住管道運行不會有表或數據在磚我猜我需要一個快速檢查表是否已經存在,如果沒有,把整個表從SQL Azure嗎?我在想這樣的(盡管它似乎不工作)?

db_name = " AdventureWorks " table_name = ' SalesLT_Customer ' tables_collection = spark.catalog.listTables (db_name) table_names_in_db = [table.name表tables_collection] table_exists = table_name table_names_in_db如果不是table_exists: @dlt。表(name = f“SalesLT_Customer”,評論= f SalesLT“原始數據。客戶”)def SalesLT_Customer (): df = spark.read.format (jdbc) \ .option (“url”,“jdbc::狀態"置疑" / / sql.database.windows.net;數據庫名=數據庫”)\ .option(“用戶名”、“x”) \ .option(“密碼”、“x”) \ .option(“數據表”,“SalesLt.Customer”) \ .option(“司機”,“com.microsoft.sqlserver.jdbc.SQLServerDriver”) \ .load()返回(df)

對於後續的運行,我將SQL Azure來自疾病控製中心的數據表中。也許是這樣的?

@dlt。表(name = f“CDC_SalesLT_Customer_CT”,評論= f SalesLT_Customer_CT疾控中心“原始數據”)def CDC_SalesLT_Customer_CT (): df = spark.read.format (jdbc) \ .option (“url”,“jdbc::狀態"置疑" / / sql.database.windows.net;數據庫名=數據庫”)\ .option(“用戶名”、“x”) \ .option(“密碼”、“x”) \ .option(“數據表”,“cdc.SalesLT_Customer_CT”) \ .option(“司機”,“com.microsoft.sqlserver.jdbc.SQLServerDriver”) \ .load()返回(df)

這似乎合理的到目前為止嗎?

1回複1

ravinchi
新的貢獻者三世

@Bear伍茲你好!你能夠創建DLT表使用CDC特性來源喜歡sql表嗎?甚至我有點在你的情況下,你需要利用apply_changes函數和create_streaming_live_table ()功能,但需要中間表中我試圖避免的。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map