取消
顯示的結果
而不是尋找
你的意思是:

如何從本地數據庫中提取源數據到數據湖和負載自動裝卸機嗎?

傑西
新的因素

這是我工作的情況。我想提取源數據使用磚JDBC連接器使用SQL Server數據庫作為數據源。我想把這些寫進一個目錄數據湖為JSON文件,然後自動裝卸機攝取這些差值表。

當我使用Azure數據工廠來編寫一個JSON文件自動裝卸機組件完美工作。當我使用PySpark編寫JSON數據,得到一個文件夾的名字,我的文件,其中包含多個JSON文件,並自動裝卸機似乎沒有想攝取這些數據。當我將數據幀轉換成熊貓我遇到內存錯誤的數據幀。

目前的解決方法我使用源數據加載到一個PySpark數據幀並編寫成三角洲表,然後保存作為JSON文件備份,以防我需要重建三角洲表。我們正在考慮使用三角洲住表將來,所以這個方法會影響我們使用三角洲住表的能力,和有更好的方法來實現這一目標嗎?

1接受解決方案

接受的解決方案

Aashita
貢獻者三世
貢獻者三世
  1. 添加到@werners點,我會利用ADF SQL server數據加載到ADLS創2為json。
  2. 然後加載這些原始Json文件從你的ADLS基地位置到三角洲表中使用自動裝卸機。
  3. 三角洲生活表可以在這個場景中使用。
  4. 你也可以注冊這個車間走你通過代碼和解釋如何讓你的數據從源使用自動裝卸機磚。https://pages.m.eheci.com/202210 - amer - fe - 102022 -路易- lakehouse -手- -實驗室_01登記。

在原帖子查看解決方案

2回答2

werners1
尊敬的貢獻者三世

這是因為分布式/並行火花的性質。

你可以添加一個.coalesce(1)你寫聲明。這樣隻會生成一個文件,但它仍將駐留在一個目錄中,有一個有趣的名字。

坦率地說,我將使用數據工廠來攝取。便宜,快,疼痛使用但看到前麵的兩個點:slightly_smiling_face:

Aashita
貢獻者三世
貢獻者三世
  1. 添加到@werners點,我會利用ADF SQL server數據加載到ADLS創2為json。
  2. 然後加載這些原始Json文件從你的ADLS基地位置到三角洲表中使用自動裝卸機。
  3. 三角洲生活表可以在這個場景中使用。
  4. 你也可以注冊這個車間走你通過代碼和解釋如何讓你的數據從源使用自動裝卸機磚。https://pages.m.eheci.com/202210 - amer - fe - 102022 -路易- lakehouse -手- -實驗室_01登記。
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map