取消
顯示的結果
而不是尋找
你的意思是:

確認攝入時間聚類應用

Oliver_Angelil
貢獻者三世

這篇文章在攝入時間聚類提到“攝入時間聚類是磚上默認啟用運行時11.2”,然而我怎麼能證實是主動為我的表嗎?

例如,有:

  • 真/假“攝入時間集群”標誌來確認嗎?
  • 創建一個新的列?
  • 一個分區的構建方式嗎?

謝謝,
奧利弗

1接受解決方案

接受的解決方案

NandiniN
重視貢獻二世
重視貢獻二世

你好@Oliver_Angelil,
攝入時間集群不使用任何領域。它隻使用您的數據的時間到達!攝入時間集群使用隱式集群基於攝入時間,這次不存儲任何其他比上麵的元數據。它不擾亂自然秩序的記錄。
理解你需要看看查詢檔案在火花UI /查詢資料,看看有多少數據表進行掃描,並比較完整的表的大小。查詢你所期望的工作,即查詢,基於時間的過濾器。
當它說,它在默認情況下是正確的,我們總是使用這個配置(分區表上)。所以指標總是“true”DBR 11.2 +,但指標會欺騙,因為我們永遠不知道如果它將適用於所有工作負載。我的意思是,如果你有ZORDER,它不會。攝入時間聚類為汽車壓實工作。優化寫(寫)的數據寫的將打破集群。
所以,所有分區表將自動從攝入時間聚類新數據攝取。我們不建議客戶下的分區表1beplay体育app下载地址 tb大小和日期/時間戳列上讓攝入時間集群自動生效。

感謝和問候,

Nandini

在原帖子查看解決方案

2回答2

NandiniN
重視貢獻二世
重視貢獻二世

你好@Oliver_Angelil,
攝入時間集群不使用任何領域。它隻使用您的數據的時間到達!攝入時間集群使用隱式集群基於攝入時間,這次不存儲任何其他比上麵的元數據。它不擾亂自然秩序的記錄。
理解你需要看看查詢檔案在火花UI /查詢資料,看看有多少數據表進行掃描,並比較完整的表的大小。查詢你所期望的工作,即查詢,基於時間的過濾器。
當它說,它在默認情況下是正確的,我們總是使用這個配置(分區表上)。所以指標總是“true”DBR 11.2 +,但指標會欺騙,因為我們永遠不知道如果它將適用於所有工作負載。我的意思是,如果你有ZORDER,它不會。攝入時間聚類為汽車壓實工作。優化寫(寫)的數據寫的將打破集群。
所以,所有分區表將自動從攝入時間聚類新數據攝取。我們不建議客戶下的分區表1beplay体育app下载地址 tb大小和日期/時間戳列上讓攝入時間集群自動生效。

感謝和問候,

Nandini

Oliver_Angelil
貢獻者三世

謝謝@NandiniN,這是非常有用的。

我有三個後續問題:

  1. 如果我已經有一個表(350 gb)分區的3列:年,月,日,並存儲在子目錄的hive-style:年= X = Y /天/月= Z,我可以讀它,刪除分區,再重新保存它,這樣它可以受益於攝入時間聚類(攝入次仍然被保存在文件元數據)?
  2. 攝入時間集群繼續當我添加數據表每日:spark.write.mode(“追加”).format .save(“δ”)(“/ mytable”)
  3. 我怎樣才能減少/增加分區大小?假設我已經附加為每個添加新數據每小時和我有一個新的鑲花文件。幾年之後我可能有成千上萬的拚花,每個被說2 mb。我怎麼減少文件數量(增加文件大小)

非常感謝你,
奧利弗

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map