12-16-202201:10點
你好,
我你會得到一些想法如何提高性能與大約10 m行數據幀。
adls -代
df1 = source1、格式、鑲花(10米)
df2 = source2、格式、鑲花(10米)
df =加入df1和df2類型=內連接
df.count()是永遠。
試圖加入上述來源和總給adls回信。
12-16-202201:40點
@raghu maremanda很難提供答案沒有更多信息。你能添加實際的代碼中使用的加入,以及總的數據大小,和集群配置(注意類型和數量的節點)
在原帖子查看解決方案
12-16-2022下午11:01
拚花文件的大小,如果太小你可以和熊貓比較pyspark嗎
12-16-2022他們就點
您可以使用ShuffleHashJoin改善
12-17-202210點
是的這是你可以做一些簡單的性能調優您的集群,它會工作,您可以使用汽車廣播連接配置或其他,你可以設置你的性能調優
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。