03-30-202342我
你好,
我有火花的工作是處理大型數據集,其處理數據的時間太長了。火花UI中,我可以看到它運行1任務9的任務。不知道如何運行這個parellel。我已經提到了自動伸縮功能,提供高達8實例。
附加的形象引發UI。
請建議如何調試和解決性能問題。
03-31-202303:22我
有8個分區,這是相同的數據我需要合並。
如何檢查有多少分區合並使用。它應該使用所有8個分區。
不,我甲型肝炎合並使用或重新分區。
能聯係生活,我可以給你代碼。
03-31-202303:29我
三角洲的曆史表中你可以看到有多少文件被重寫(操作指標列)。
有統計numtargetfilesadded和numtargetfilesremoved等等。
這一事實源dataframe(所以傳入的數據)8個分區,並不意味著三角洲湖表也將更新8分區。
03-31-202303:46我
三角洲表有相同列用於源表和應該有8個分區,
03-31-202303:50我
三角洲地區的分區表的數量無關,有關的是多少個分區或文件合並的影響。
可以演示在三角洲地區的曆史。
磚也可以應用的優化而寫作,因此它可能決定寫一個文件,而不是8。寫作將更糟,但閱讀將會更快。
03-31-202304:01我
任何建議來提高性能。有什麼參數配置優化。任何文件在火花如何調試UI
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。