取消
顯示的結果
而不是尋找
你的意思是:

數據幀需要異常長時間寫較小的數據集

匿名
不適用

我們已經配置了工作區與自己的vpc。我們需要提取數據從DB2和δ格式寫。我們試圖為550 k記錄有230列,它了50分鍾完成任務。15 mn記錄時間超過18小時。不知道為什麼這需要這麼長的時間來寫。欣賞一個解決方案。

代碼:

df = spark.read。jdbc (url = jdbcUrl、表= pushdown_query屬性= connectionProperties)

df.write.mode .format(“追加”)(“δ”)。partitionBy(“年”、“月”、“日”).save (delta_path)

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

請增加並行性,通過調整jdbc設置:

columnName = "關鍵",

下界= 1 l,

upperBound = 100000 l,

numPartitions = 100,

這是示例值。最好的鍵列將是獨一無二的,連續這將同樣沒有數據傾斜。

請分析也引發UI——看看需要的最大時間(讀和寫嗎?)

在原帖子查看解決方案

9回複9

Hubert_Dudek1
尊敬的貢獻者三世

請增加並行性,通過調整jdbc設置:

columnName = "關鍵",

下界= 1 l,

upperBound = 100000 l,

numPartitions = 100,

這是示例值。最好的鍵列將是獨一無二的,連續這將同樣沒有數據傾斜。

請分析也引發UI——看看需要的最大時間(讀和寫嗎?)

嗨@Hubert杜德克,我認為唯一列應該是整數而不是字母數字或字符串,對吧?

匿名
不適用

嗨@Hubert杜德克如果我們沒有獨特的列在整數/連續。這是如何做到的?

Hubert_Dudek1
尊敬的貢獻者三世

試試numPartitions = 100

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map