取消
顯示的結果
而不是尋找
你的意思是:

如何優化運行時在10.4集群

databicky
貢獻者

我從火花dataframe 10億數據加載到目標表,但在7.3集群需要3個小時完成但遷移到10.4集群後8小時才能完成,我怎麼能減少時間

4回複4

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你好,請參考https://docs.m.eheci.com/clusters/cluster-config-best-practices.html集群配置的最佳實踐。請讓我們知道這有幫助。

jose_gonzalez
主持人
主持人

嗨@Mohammed sadamusean,

你能提供更多細節在你在做什麼?什麼類型的轉換/動作你在做什麼?什麼你的源和彙嗎?批處理或流?所有這些信息會有所幫助。

我adls中的數據,這場數據加載到多個dataframes磚筆記本,從最終dataframe我加載數據到最終目標表基於dataframe tempview,通常需要3 7.3集群但在10.4集群需要8小時左右,10億條記錄

你能檢查你的火花UI來確定哪個階段時間最長,並分享一些信息嗎

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map