你好,
我遇到問題而試圖將數據寫入一個增量表,查詢之間加入3表和獲取數據,但是需要5分鍾3小時寫數據到表中,選擇有700條記錄。
下麵是我測試的方法:
共享的集群 |
3 h |
孤立的集群 |
2.88 h |
外部表+鑲花+壓縮“ZSTD” |
2.63 h |
調節表屬性:“三角洲。targetFileSize ' = 256 mb, |
2.9 h |
水桶插入(100批次的記錄) |
太長時間我不得不取消它 |
分區 |
不是一個選擇 |
集群的總結
保護工人:140 - 2100 GB的內存
20 - 300核
司機:140 GB內存,20個核
運行時:12.2.x-scala2.12