解決:Re:三角洲表autooptimize vs -磚- 34128優化命令

guruv · ‎11-30-2021

你好,

我有幾個三角洲表在Azure adls gen 2存儲賬戶運行磚運行時的7.3。隻有δ表上寫/讀操作,沒有更新/刪除。

作為釋放管道的一部分,執行下麵的命令在一個新的筆記本在工作區中一個新的集群

火花。sql(設置spark.databricks.delta.properties.defaults.autoOptimize.optimizeWrite = true;)火花。sql(“設置spark.databricks.delta.properties.defaults.autoOptimize.autoCompact = true;”)

我的應用程序的工作都觸發不同的筆記本和不同的集群。

問題:

高於autoOptimize足以有優化的δ表或我應該定期運行優化為每個表{表}。
有辦法驗證是否autoOptimize工作,因為當我在三角洲表,執行查詢運行優化提供建議嗎

werners1 · ‎12-03-2021

優化運行在寫這不是描述所示。

這有慢寫成本(但更快的讀取之後)。總是有代價支付…

你可以檢查當前文件的文件大小。他們應該或多或少相同的大小(128 mb或32 mb默認值取決於版本)

在原帖子查看解決方案

Kaniz · ‎12-01-2021

你好@guruv!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1 · ‎12-01-2021

自動優化是充分的,除非你遇到性能問題。

然後我將觸發一個優化。這將生成的文件1 gb(大於標準尺寸的自動優化)。當然,在必要時z值。

運行優化的建議可能會提議應用z值,因為你在你的筆記本使用高度選擇性濾波器。

z值是一個非常有趣的優化技術,但應該檢查什麼是最好的排序。所以根據情況下這可能是有趣的。

自動最優化並不適用於z值。

https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/auto-optimize

guruv · ‎12-01-2021

謝謝你的確認。

有辦法驗證autoOptimize實際上是做優化?我

我想書寫曆史{表}將顯示一些操作autoOptimize運行。但在我的例子中所有曆史的三角洲表隻顯示1天(我們沒有設置任何exlicitly),隻有“寫”操作。

werners1 · ‎12-03-2021

優化運行在寫這不是描述所示。

這有慢寫成本(但更快的讀取之後)。總是有代價支付…

你可以檢查當前文件的文件大小。他們應該或多或少相同的大小(128 mb或32 mb默認值取決於版本)

磚

三角洲表autooptimize vs優化命令