Re:緩慢的真空性能在Azure數據湖……頁2 -磚- 15798

gbrueckl · ‎09-10-2021

我們需要我們的一個最大的表上運行真空自由存儲。根據我們的分析使用

真空bigtable排練

這會影響30 m +文件需要刪除。

如果我們最後真空運行,文件列表需要2 h(好),但實際刪除超級慢大約40文件/秒。

我們已經嚐試過不同的集群配置和spark-settings但沒有產生任何重大影響。

瓶頸似乎是單線程刪除的物理文件運行驅動程序一次隻能刪除一個文件。

任何想法如何加速這?

User16752246494 · ‎09-27-2021

嗨@Gerhard Brueckl,

真空bigtable排練

隻會列出文件刪除但不是真正刪除物理文件。當我們看到大約有2 m文件列出。一旦文件實際上是用吸塵器吸過你不會看到這麼多時間真空幹燥的運行。

gbrueckl · ‎09-27-2021

嗨@Sunando Bhattacharya,謝謝你的回複。

請重讀我的問題。問題不在於時間的文件列表(不管排練或不是),但刪除30 m文件的速度40文件/秒

Deepak_Bhutada · ‎10-20-2021

嗨gbrueckl(客戶),

請你試著啟用下麵的火花在集群上配置並重啟它並運行真空嗎?

spark.databricks.delta.vacuum.parallelDelete.enabled真實

gbrueckl · ‎10-20-2021

當然,已經試過,但是它不工作,可能與ADLS Gen2有關

Deepak_Bhutada · ‎10-20-2021

@Gerhard Brueckl

我們已經看到在80 k - 120 k的文件刪除在Azure每小時在三角洲做真空表,隻是真空在Azure和S3慢。它可能需要一些時間,你說當刪除文件從三角洲的道路。

為了最小化成本DBUs做真空時,您可以使用自動定量0 - 2工人最便宜的實例。

為什麼我們建議伸縮與最小節點1,是因為,真空的第一步,我們讀三角洲日誌和確定要刪除的文件的速度會非常慢,如果隻有一個節點對大型表。為了避免這種情況,使用集群資源明智地在步驟1中,然後在步驟2中,我們從司機開始刪除,縮小執行人的資源。

如何估計一小時後的文件刪除:

你可以得到一個高級的估計有多少文件被檢查在一個小時內刪除FS_OP_DELETE發射器在司機日誌。

另一種方法是運行管製命令一個小時後,看看數顯示。

第二種方法不會給完全刪除,因為,可能會有新的文件確定了真空的一個小時後當你運行該命令。但是好的估計

磚