取消
顯示的結果
而不是尋找
你的意思是:

三角洲優化寫vs賠償,推薦的是哪一個?

saipujari_spark
價值貢獻
價值貢獻

當流到三角洲表,重新分區的分區列和優化寫可以幫助避免小文件。

三角洲之間,建議優化寫vs重新分區?

謝謝,
Saikrishna Pujari
老引發技術解決方案工程師,磚
1回複1

saipujari_spark
價值貢獻
價值貢獻

優化的建議寫在實現有以下原因。

*優化的關鍵部分是一種自適應調整寫道。如果你有一個流攝取用例和輸入數據率隨時間的變化,自適應洗牌將相應地調整自己在micro-batches傳入的數據速率。如果你有代碼片段合並(n)或重新分配(n)就在你寫你的流,您可以刪除這些行。

*磚動態優化的火花分區大小根據實際數據和試圖寫出128 MB的文件為每個表分區。這是一個近似的大小,取決於數據集特征。

*實現與不同分區列可能導致分區大小數據傾斜時,這將導致不優化文件大小。

底線是,優化寫比實現一樣,簡單的把優化寫是一個重新分配,我們選擇分區的數量在一個自適應動態優化方法基於數據。

參考:https://docs.m.eheci.com/delta/optimizations/auto-optimize.html auto-compaction

謝謝,
Saikrishna Pujari
老引發技術解決方案工程師,磚
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map