優化的建議寫在實現有以下原因。
*優化的關鍵部分是一種自適應調整寫道。如果你有一個流攝取用例和輸入數據率隨時間的變化,自適應洗牌將相應地調整自己在micro-batches傳入的數據速率。如果你有代碼片段合並(n)或重新分配(n)就在你寫你的流,您可以刪除這些行。
*磚動態優化的火花分區大小根據實際數據和試圖寫出128 MB的文件為每個表分區。這是一個近似的大小,取決於數據集特征。
*實現與不同分區列可能導致分區大小數據傾斜時,這將導致不優化文件大小。
底線是,優化寫比實現一樣,簡單的把優化寫是一個重新分配,我們選擇分區的數量在一個自適應動態優化方法基於數據。
參考:https://docs.m.eheci.com/delta/optimizations/auto-optimize.html auto-compaction