解決:確認攝入時間聚類是應用…-磚- 38564

Oliver_Angelil · 3周之前

這篇文章在攝入時間聚類提到“攝入時間聚類是磚上默認啟用運行時11.2”,然而我怎麼能證實是主動為我的表嗎?

例如,有:

真/假“攝入時間集群”標誌來確認嗎?
創建一個新的列?
一個分區的構建方式嗎?

謝謝,
奧利弗

NandiniN · 3周之前

你好@Oliver_Angelil,
攝入時間集群不使用任何領域。它隻使用您的數據的時間到達!攝入時間集群使用隱式集群基於攝入時間,這次不存儲任何其他比上麵的元數據。它不擾亂自然秩序的記錄。
理解你需要看看查詢檔案在火花UI /查詢資料,看看有多少數據表進行掃描,並比較完整的表的大小。查詢你所期望的工作,即查詢,基於時間的過濾器。
當它說,它在默認情況下是正確的,我們總是使用這個配置(分區表上)。所以指標總是“true”DBR 11.2 +,但指標會欺騙,因為我們永遠不知道如果它將適用於所有工作負載。我的意思是,如果你有ZORDER,它不會。攝入時間聚類為汽車壓實工作。優化寫(寫)的數據寫的將打破集群。
所以,所有分區表將自動從攝入時間聚類新數據攝取。我們不建議客戶下的分區表1beplay体育app下载地址 tb大小和日期/時間戳列上讓攝入時間集群自動生效。

感謝和問候,

Nandini

在原帖子查看解決方案

NandiniN · 3周之前

你好@Oliver_Angelil,
攝入時間集群不使用任何領域。它隻使用您的數據的時間到達!攝入時間集群使用隱式集群基於攝入時間,這次不存儲任何其他比上麵的元數據。它不擾亂自然秩序的記錄。
理解你需要看看查詢檔案在火花UI /查詢資料,看看有多少數據表進行掃描,並比較完整的表的大小。查詢你所期望的工作,即查詢,基於時間的過濾器。
當它說,它在默認情況下是正確的,我們總是使用這個配置(分區表上)。所以指標總是“true”DBR 11.2 +,但指標會欺騙,因為我們永遠不知道如果它將適用於所有工作負載。我的意思是,如果你有ZORDER,它不會。攝入時間聚類為汽車壓實工作。優化寫(寫)的數據寫的將打破集群。
所以,所有分區表將自動從攝入時間聚類新數據攝取。我們不建議客戶下的分區表1beplay体育app下载地址 tb大小和日期/時間戳列上讓攝入時間集群自動生效。

感謝和問候,

Nandini

Oliver_Angelil · 3周之前

謝謝@NandiniN,這是非常有用的。

我有三個後續問題:

如果我已經有一個表(350 gb)分區的3列:年,月,日,並存儲在子目錄的hive-style:年= X = Y /天/月= Z,我可以讀它,刪除分區,再重新保存它,這樣它可以受益於攝入時間聚類(攝入次仍然被保存在文件元數據)?
攝入時間集群繼續當我添加數據表每日:spark.write.mode(“追加”).format .save(“δ”)(“/ mytable”)
我怎樣才能減少/增加分區大小?假設我已經附加為每個添加新數據每小時和我有一個新的鑲花文件。幾年之後我可能有成千上萬的拚花,每個被說2 mb。我怎麼減少文件數量(增加文件大小)

非常感謝你,
奧利弗

磚

確認攝入時間聚類應用