取消
顯示的結果
而不是尋找
你的意思是:

火花太慢和不做parellel處理任務

桑傑
價值貢獻

你好,

我有火花的工作是處理大型數據集,其處理數據的時間太長了。火花UI中,我可以看到它運行1任務9的任務。不知道如何運行這個parellel。我已經提到了自動伸縮功能,提供高達8實例。

附加的形象引發UI。

請建議如何調試和解決性能問題。

12個回複12

werners1
尊敬的貢獻者三世

從你提供的截圖你似乎在做一個merge語句。

根據三角洲的分區表可以並行。

遠東如果你所有傳入的數據駐留在一個大分區,火花必須完全寫這巨大的分區可以花很長時間。

你能分享一些代碼嗎?

pvignesh92
尊敬的貢獻者

嗨@Sanjay耆那教的你有機會看到有多少可用分區dataframe之前執行合並操作和它們之間的數據如何分布?這將幫助你看如果你有任何數據傾斜。你也可能需要看你在做合並的關鍵檢查扭曲在任何特定的值。

下麵的代碼將幫助你得到每個分區的記錄

從pyspark.sql。功能導入spark_partition_id rawDf。withColumn (“partitionId spark_partition_id ()) .groupBy (partitionId) .count(),告訴()

我的分區是根據日期,這是分區信息約70 k的記錄。

partitionId | |計數

+ - - - - - - - - - - - - - - - - - - +

14557 | | 0 |

| 1 | 25455 |

| 2 | 20330 |

| 3 | 1776 |

| 4 | 2868 |

| 5 | 1251 |

| 6 | 1145 |

| | 127

werners1
尊敬的貢獻者三世

很扭曲,然而,這並不能解釋為什麼沒有並行性。

我看到的是,唯一的原因:

——合並隻打一個分區

你申請合並(1)或重新分配(1)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map