取消
顯示的結果
而不是尋找
你的意思是:

查詢時間太長寫到三角洲表。

Axatar
新的因素

你好,

我遇到問題而試圖將數據寫入一個增量表,查詢之間加入3表和獲取數據,但是需要5分鍾3小時寫數據到表中,選擇有700條記錄。

下麵是我測試的方法:

共享的集群

3 h

孤立的集群

2.88 h

外部表+鑲花+壓縮“ZSTD”

2.63 h

調節表屬性:“三角洲。targetFileSize ' = 256 mb,
“三角洲。tuneFileSizesForRewrites”=“真正的”

2.9 h

水桶插入(100批次的記錄)

太長時間我不得不取消它

分區

不是一個選擇

集群的總結
保護工人:140 - 2100 GB的內存
20 - 300核
司機:140 GB內存,20個核
運行時:12.2.x-scala2.12

5回複5

Axatar
新的因素

原來這個問題並不在寫作方麵,即使我得到結果後在5分鍾,交叉連接的問題是我在查詢解決這個問題通過dataframes做同樣的交叉連接了檢測結果計算和寫在17分鍾

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map