火花任務太慢和不做parellel過程……-磚- 6815

桑傑 · ‎03-30-2023

你好,

我有火花的工作是處理大型數據集,其處理數據的時間太長了。火花UI中,我可以看到它運行1任務9的任務。不知道如何運行這個parellel。我已經提到了自動伸縮功能,提供高達8實例。

附加的形象引發UI。

請建議如何調試和解決性能問題。

werners1 · ‎03-30-2023

從你提供的截圖你似乎在做一個merge語句。

根據三角洲的分區表可以並行。

遠東如果你所有傳入的數據駐留在一個大分區,火花必須完全寫這巨大的分區可以花很長時間。

你能分享一些代碼嗎?

pvignesh92 · ‎03-30-2023

嗨@Sanjay耆那教的你有機會看到有多少可用分區dataframe之前執行合並操作和它們之間的數據如何分布?這將幫助你看如果你有任何數據傾斜。你也可能需要看你在做合並的關鍵檢查扭曲在任何特定的值。

下麵的代碼將幫助你得到每個分區的記錄

從pyspark.sql。功能導入spark_partition_id rawDf。withColumn (“partitionId spark_partition_id ()) .groupBy (partitionId) .count(),告訴()

桑傑 · ‎03-31-2023

我的分區是根據日期,這是分區信息約70 k的記錄。

partitionId | |計數

+ - - - - - - - - - - - - - - - - - - +

14557 | | 0 |

| 1 | 25455 |

| 2 | 20330 |

| 3 | 1776 |

| 4 | 2868 |

| 5 | 1251 |

| 6 | 1145 |

| | 127

werners1 · ‎03-31-2023

很扭曲,然而,這並不能解釋為什麼沒有並行性。

我看到的是,唯一的原因:

——合並隻打一個分區

你申請合並(1)或重新分配(1)

磚