我們需要我們的一個最大的表上運行真空自由存儲。根據我們的分析使用
真空bigtable排練
這會影響30 m +文件需要刪除。
如果我們最後真空運行,文件列表需要2 h(好),但實際刪除超級慢大約40文件/秒。
我們已經嚐試過不同的集群配置和spark-settings但沒有產生任何重大影響。
瓶頸似乎是單線程刪除的物理文件運行驅動程序一次隻能刪除一個文件。
任何想法如何加速這?
@Gerhard Brueckl
我們已經看到在80 k - 120 k的文件刪除在Azure每小時在三角洲做真空表,隻是真空在Azure和S3慢。它可能需要一些時間,你說當刪除文件從三角洲的道路。
為了最小化成本DBUs做真空時,您可以使用自動定量0 - 2工人最便宜的實例。
為什麼我們建議伸縮與最小節點1,是因為,真空的第一步,我們讀三角洲日誌和確定要刪除的文件的速度會非常慢,如果隻有一個節點對大型表。為了避免這種情況,使用集群資源明智地在步驟1中,然後在步驟2中,我們從司機開始刪除,縮小執行人的資源。
如何估計一小時後的文件刪除:
你可以得到一個高級的估計有多少文件被檢查在一個小時內刪除FS_OP_DELETE發射器在司機日誌。
另一種方法是運行管製命令一個小時後,看看數顯示。
第二種方法不會給完全刪除,因為,可能會有新的文件確定了真空的一個小時後當你運行該命令。但是好的估計