取消
顯示的結果
而不是尋找
你的意思是:

火花太慢和不做parellel處理任務

桑傑
價值貢獻

你好,

我有火花的工作是處理大型數據集,其處理數據的時間太長了。火花UI中,我可以看到它運行1任務9的任務。不知道如何運行這個parellel。我已經提到了自動伸縮功能,提供高達8實例。

附加的形象引發UI。

請建議如何調試和解決性能問題。

12個回複12

桑傑
價值貢獻

有8個分區,這是相同的數據我需要合並。

如何檢查有多少分區合並使用。它應該使用所有8個分區。

不,我甲型肝炎合並使用或重新分區。

能聯係生活,我可以給你代碼。

werners1
尊敬的貢獻者三世

三角洲的曆史表中你可以看到有多少文件被重寫(操作指標列)。

有統計numtargetfilesadded和numtargetfilesremoved等等。

這一事實源dataframe(所以傳入的數據)8個分區,並不意味著三角洲湖表也將更新8分區。

三角洲表有相同列用於源表和應該有8個分區,

werners1
尊敬的貢獻者三世

三角洲地區的分區表的數量無關,有關的是多少個分區或文件合並的影響。

可以演示在三角洲地區的曆史。

磚也可以應用的優化而寫作,因此它可能決定寫一個文件,而不是8。寫作將更糟,但閱讀將會更快。

任何建議來提高性能。有什麼參數配置優化。任何文件在火花如何調試UI

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map