取消
顯示的結果
而不是尋找
你的意思是:

優化從磚到雪花寫道

pvignesh92
尊敬的貢獻者

後我的工作做的磚層中的所有處理最終的輸出雪花表使用df寫道。使用火花雪花編寫API和連接器。我經常看到,即使一個小的數據集(16個分區,每個分區中20 k行)大概需要2分鍾來寫。有什麼方法,寫可以優化嗎?

6個回答6

pvignesh92
尊敬的貢獻者

感謝@Vartika拿因跟進。我關閉這個線程。

pvignesh92
尊敬的貢獻者

有一些選項,我嚐試了,給了我一個更好的性能。

  1. 緩存中間或最終結果,這樣在寫dataframe計算不重複了。
  2. 結果合並到分區1倍或0.5倍還你的核心數量和確保您的分區都等於或超過128 MB的塊,這樣有效地寫道。
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map