解決:如何提取源數據從本地databas…-磚- 12317

傑西 · ‎01-12-2023

這是我工作的情況。我想提取源數據使用磚JDBC連接器使用SQL Server數據庫作為數據源。我想把這些寫進一個目錄數據湖為JSON文件,然後自動裝卸機攝取這些差值表。

當我使用Azure數據工廠來編寫一個JSON文件自動裝卸機組件完美工作。當我使用PySpark編寫JSON數據,得到一個文件夾的名字,我的文件,其中包含多個JSON文件,並自動裝卸機似乎沒有想攝取這些數據。當我將數據幀轉換成熊貓我遇到內存錯誤的數據幀。

目前的解決方法我使用源數據加載到一個PySpark數據幀並編寫成三角洲表,然後保存作為JSON文件備份,以防我需要重建三角洲表。我們正在考慮使用三角洲住表將來,所以這個方法會影響我們使用三角洲住表的能力,和有更好的方法來實現這一目標嗎?

Aashita · ‎01-12-2023

添加到@werners點,我會利用ADF SQL server數據加載到ADLS創2為json。
然後加載這些原始Json文件從你的ADLS基地位置到三角洲表中使用自動裝卸機。
三角洲生活表可以在這個場景中使用。
你也可以注冊這個車間走你通過代碼和解釋如何讓你的數據從源使用自動裝卸機磚。https://pages.m.eheci.com/202210 - amer - fe - 102022 -路易- lakehouse -手- -實驗室_01登記。

werners1 · ‎01-12-2023

這是因為分布式/並行火花的性質。

你可以添加一個.coalesce(1)你寫聲明。這樣隻會生成一個文件,但它仍將駐留在一個目錄中,有一個有趣的名字。

坦率地說,我將使用數據工廠來攝取。便宜,快,疼痛使用但看到前麵的兩個點

Aashita · ‎01-12-2023

添加到@werners點,我會利用ADF SQL server數據加載到ADLS創2為json。
然後加載這些原始Json文件從你的ADLS基地位置到三角洲表中使用自動裝卸機。
三角洲生活表可以在這個場景中使用。
你也可以注冊這個車間走你通過代碼和解釋如何讓你的數據從源使用自動裝卸機磚。https://pages.m.eheci.com/202210 - amer - fe - 102022 -路易- lakehouse -手- -實驗室_01登記。

磚