取消
顯示的結果
而不是尋找
你的意思是:

三角洲湖表:大量由於版本控製

abaschkim
新的貢獻者二世

我已經建立了一個火花獨立集群和使用火花從卡夫卡結構化流寫數據到多個三角洲湖表——簡單地存儲在文件係統中。所以有多個每秒寫道。管道運行一段時間後,我注意到表需要大量存儲在磁盤上。相比一些表需要10倍的存儲資源。

我調查了三角洲湖表版本控製。當我描述一個選定的表,它聲稱sizeInBytes實際上是大約10 GB,盡管磁盤上的相應文件夾接管100 GB。

詳細描述delta.“/ mnt /δ/銅/ algod_indexer_public_txn_flat”

所以我設置以下屬性:

ALTER TABLE三角洲。“/ mnt /δ/銅/ algod_indexer_public_txn_flat”設置TBLPROPERTIES(δ。logRetentionDuration ' = '間隔24小時”、“delta.deletedFileRetentionDuration ' = '間隔1小時)

然後進行了真空:

真空delta.“/ mnt /δ/銅/ algod_indexer_public_txn_flat”

但是,幾天後,磁盤上的大小保持在100 gb。雖然不斷地執行一個真空。我怎樣才能克服這個問題呢?

提前謝謝!

4回複4

werners1
尊敬的貢獻者三世

磚設置默認的安全間隔7天。你可以去下麵,當你嚐試。

然而三角洲湖有一個安全檢查防止你運行一個危險

真空命令。如果你確定沒有這個表上執行的操作,需要更長的時間比保留你計劃指定的時間間隔,你可以關掉這個安全檢查通過設置引發配置屬性

spark.databricks.delta.retentionDurationCheck.enabled

為假。

abaschkim
新的貢獻者二世

謝謝你的回答,沃納。

我在火花並設置這個配置,不幸的是。事先,真空命令把文檔中規定的一個警告。

現在我得到以下結果:

共1 0刪除文件和目錄的目錄

但實際上它應該刪除舊版本,版本有超過一個星期。

werners1
尊敬的貢獻者三世

看來老文件是孤兒。

你從磚的版本嗎?也許三角洲湖表中創建另一個版本嗎?

匿名
不適用

嘿@Kim Abasch

希望一切都好!

隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map