09-10-202102:36我
我們需要我們的一個最大的表上運行真空自由存儲。根據我們的分析使用
真空bigtable排練
這會影響30 m +文件需要刪除。
如果我們最後真空運行,文件列表需要2 h(好),但實際刪除超級慢大約40文件/秒。
我們已經嚐試過不同的集群配置和spark-settings但沒有產生任何重大影響。
瓶頸似乎是單線程刪除的物理文件運行驅動程序一次隻能刪除一個文件。
任何想法如何加速這?
10-20-202106:25我
80 k - 120 k的文件刪除每小時相當於40文件/秒,我們觀察者——它運行單線程的司機,你可以很容易地看到這個司機日誌
我需要刪除30 m +文件- > 12.5天大約需要300個小時
我們已經使用一個單節點集群作為我們保存在文件列表相比可以忽略不計的成本我們也經曆了集群不是縮減在刪除操作
我估計通過Scala文件通過運行真空幹燥運行,打印文件的數量
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。