解決:慢速運行查詢-磚- 16284

joakon · ‎12-16-2022

你好,

我你會得到一些想法如何提高性能與大約10 m行數據幀。

adls -代

df1 = source1、格式、鑲花(10米)

df2 = source2、格式、鑲花(10米)

df =加入df1和df2類型=內連接

df.count()是永遠。

試圖加入上述來源和總給adls回信。

LandanG · ‎12-16-2022

@raghu maremanda很難提供答案沒有更多信息。你能添加實際的代碼中使用的加入,以及總的數據大小,和集群配置(注意類型和數量的節點)

LandanG · ‎12-16-2022

@raghu maremanda很難提供答案沒有更多信息。你能添加實際的代碼中使用的加入,以及總的數據大小,和集群配置(注意類型和數量的節點)

labtech · ‎12-16-2022

拚花文件的大小,如果太小你可以和熊貓比較pyspark嗎

謝爾 · ‎12-16-2022

您可以使用ShuffleHashJoin改善

Aviral-Bhardwaj · ‎12-17-2022

是的這是你可以做一些簡單的性能調優您的集群,它會工作,您可以使用汽車廣播連接配置或其他,你可以設置你的性能調優

磚