三角洲優化編寫和補償,這是偵察……-磚- 15322

saipujari_spark · ‎09-14-2021

當流到三角洲表,重新分區的分區列和優化寫可以幫助避免小文件。

三角洲之間,建議優化寫vs重新分區?

謝謝,
Saikrishna Pujari
老引發技術解決方案工程師,磚

saipujari_spark · ‎09-14-2021

優化的建議寫在實現有以下原因。

*優化的關鍵部分是一種自適應調整寫道。如果你有一個流攝取用例和輸入數據率隨時間的變化,自適應洗牌將相應地調整自己在micro-batches傳入的數據速率。如果你有代碼片段合並(n)或重新分配(n)就在你寫你的流,您可以刪除這些行。

*磚動態優化的火花分區大小根據實際數據和試圖寫出128 MB的文件為每個表分區。這是一個近似的大小,取決於數據集特征。

*實現與不同分區列可能導致分區大小數據傾斜時,這將導致不優化文件大小。

底線是,優化寫比實現一樣,簡單的把優化寫是一個重新分配,我們選擇分區的數量在一個自適應動態優化方法基於數據。

謝謝,
Saikrishna Pujari
老引發技術解決方案工程師,磚

磚