取消
顯示的結果
而不是尋找
你的意思是:

緩慢運行查詢

joakon
新的貢獻者三世

你好,

我你會得到一些想法如何提高性能與大約10 m行數據幀。

adls -代

df1 = source1、格式、鑲花(10米)

df2 = source2、格式、鑲花(10米)

df =加入df1和df2類型=內連接

df.count()是永遠。

試圖加入上述來源和總給adls回信。

1接受解決方案

接受的解決方案

LandanG
尊敬的貢獻者
尊敬的貢獻者

@raghu maremanda很難提供答案沒有更多信息。你能添加實際的代碼中使用的加入,以及總的數據大小,和集群配置(注意類型和數量的節點)

在原帖子查看解決方案

5回複5

LandanG
尊敬的貢獻者
尊敬的貢獻者

@raghu maremanda很難提供答案沒有更多信息。你能添加實際的代碼中使用的加入,以及總的數據大小,和集群配置(注意類型和數量的節點)

labtech
重視貢獻二世

拚花文件的大小,如果太小你可以和熊貓比較pyspark嗎

謝爾
重視貢獻二世

您可以使用ShuffleHashJoin改善

Aviral-Bhardwaj
尊敬的貢獻者三世

是的這是你可以做一些簡單的性能調優您的集群,它會工作,您可以使用汽車廣播連接配置或其他,你可以設置你的性能調優

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map