取消
顯示的結果
而不是尋找
你的意思是:

我們可以存儲3億條記錄和更好的計算類型和配置是什麼?

AzureDatabricks
新的貢獻者三世

我們如何堅持3億條記錄嗎?最好的選擇是什麼磚蜂巢metastore / Azure存儲保存數據/δ表嗎?

什麼是限製我們對deltatables磚的數據?

我們有usecase測試人員應該能夠看到數據表和查詢。

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

我不能做,沒有單一的理想尺寸/場景。

然而:磚的最新版本是一個不錯的選擇(10.0或最新LTS生產工作)。

數據工作,編寫優化節點是一個不錯的選擇,因為他們可以使用三角洲緩存。

網上查詢:磚sql。

我自己使用最便宜的節點類型處理工作,這取決於引發程序運行。所以我使用多個集群配置。

我甚至運行upsert與單個工人工作表超過3億的記錄,沒問題根據需要重寫的數據量。

這取決於過濾器、轉換等3億條記錄。

在原帖子查看解決方案

7回複7

werners1
尊敬的貢獻者三世

你當然可以存儲3億條記錄沒有任何問題。

最好的選擇依賴於用例。

如果你想做很多在線查詢放在桌上,我建議使用三角洲湖,optimeized(使用z值、布隆過濾器、分區和文件修剪)。與磚的SQL端點可以查詢數據。

如果您想要使用的數據數據工程(ETL作業),我也建議使用三角洲湖可以合並新的/改變數據增量。

你可以使用相同的優化技術,但可能使用不同的列(這取決於工作讀表)。

我不知道有關的數據量的限製。但數十億條記錄應該沒有問題。

當然一切都取決於集群工作負載運行。4-node集群將需要更長的時間來處理這比20-node集群的數據量。

所以,如果你可以攝取數據增量:使用三角洲湖,如果你要做一個3億年記錄每天覆蓋,純拚花也是好的。

AzureDatabricks
新的貢獻者三世

謝謝你的回答。

請建議最好的節點集群配置使用3億條記錄。

例如節點類型,Clusture模式和磚版本的運行時版本嗎?

werners1
尊敬的貢獻者三世

我不能做,沒有單一的理想尺寸/場景。

然而:磚的最新版本是一個不錯的選擇(10.0或最新LTS生產工作)。

數據工作,編寫優化節點是一個不錯的選擇,因為他們可以使用三角洲緩存。

網上查詢:磚sql。

我自己使用最便宜的節點類型處理工作,這取決於引發程序運行。所以我使用多個集群配置。

我甚至運行upsert與單個工人工作表超過3億的記錄,沒問題根據需要重寫的數據量。

這取決於過濾器、轉換等3億條記錄。

Hubert_Dudek1
尊敬的貢獻者三世

δ是事務性的,也許如果沒有並發寫入表,純粹的拚花正確分區將比δ來存儲更有效體積

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map