我已經建立了一個火花獨立集群和使用火花從卡夫卡結構化流寫數據到多個三角洲湖表——簡單地存儲在文件係統中。所以有多個每秒寫道。管道運行一段時間後,我注意到表需要大量存儲在磁盤上。相比一些表需要10倍的存儲資源。
我調查了三角洲湖表版本控製。當我描述一個選定的表,它聲稱sizeInBytes實際上是大約10 GB,盡管磁盤上的相應文件夾接管100 GB。
詳細描述delta.“/ mnt /δ/銅/ algod_indexer_public_txn_flat”
所以我設置以下屬性:
ALTER TABLE三角洲。“/ mnt /δ/銅/ algod_indexer_public_txn_flat”設置TBLPROPERTIES(δ。logRetentionDuration ' = '間隔24小時”、“delta.deletedFileRetentionDuration ' = '間隔1小時)
然後進行了真空:
真空delta.“/ mnt /δ/銅/ algod_indexer_public_txn_flat”
但是,幾天後,磁盤上的大小保持在100 gb。雖然不斷地執行一個真空。我怎樣才能克服這個問題呢?
提前謝謝!