這是我工作的情況。我想提取源數據使用磚JDBC連接器使用SQL Server數據庫作為數據源。我想把這些寫進一個目錄數據湖為JSON文件,然後自動裝卸機攝取這些差值表。
當我使用Azure數據工廠來編寫一個JSON文件自動裝卸機組件完美工作。當我使用PySpark編寫JSON數據,得到一個文件夾的名字,我的文件,其中包含多個JSON文件,並自動裝卸機似乎沒有想攝取這些數據。當我將數據幀轉換成熊貓我遇到內存錯誤的數據幀。
目前的解決方法我使用源數據加載到一個PySpark數據幀並編寫成三角洲表,然後保存作為JSON文件備份,以防我需要重建三角洲表。我們正在考慮使用三角洲住表將來,所以這個方法會影響我們使用三角洲住表的能力,和有更好的方法來實現這一目標嗎?