取消
顯示的結果
而不是尋找
你的意思是:

我努力優化火花應用程序代碼。有誰可以幫助我在優化嗎?我用火花在Hadoop紗。

T__V__K__Hanuma
新的貢獻者二世

我將闡述我的問題。我使用一個6-node火花在Hadoop集群紗的一個節點作為主人和其他5作為工人節點。我運行我的火花在集群應用程序。完成後,當我檢查火花UI,我觀察了由於時間調度程序執行時間延遲和任務反序列化時間即使執行人計算時間是非常低的。總運行時間81秒時,它應該完成在不到8秒。我不能從任何現有的帖子在網上尋求幫助。我希望有人能幫我解決這個問題。是什麼方式減少調度延遲和反序列化任務時間。問題是由於最優的方式編寫代碼或由於配置的紗和火花?我附上一些圖片。我將分享任何其他事情需要進一步分析如紗,火花配置,必要時應用程序代碼等。 Thanks in advance.

01 _jobs

02 _dag_and_metrics

03 _event_timeline04 _tasks

4回複4

Avinash_94
新的貢獻者三世

你的問題是一些仔細的優化需要多個輸入您可以從這個文檔開始https://docs.m.eheci.com/optimizations/index.html

如果你問一些具體我可以詳細說明

Pallav
新的貢獻者二世

大多數的優化可以同時選擇分區的數量我們可以創建數據,太多會導致一個大洗牌操作廣泛依賴操作和過少會導致parallelisation。減少花費的時間在洗牌操作,使用zordering這樣數據有較高的幾率下降在同樣的聚合,位於相同或附近的分區。

Vidula_Khanna
主持人
主持人

嗨@T。v . k .長尾猴

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

嗨@Vidula卡納

我的問題還沒有解決。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map