取消
顯示的結果
而不是尋找
你的意思是:

inegstion時間聚類

mderela
新的貢獻者二世

你好,在rerence//m.eheci.com/blog/2022/11/18/introducing攝入-時間-聚類- dbr - 112. - html

我有一個愚蠢的問題如何使用它。假設我有一些結核病不分區的數據。所以,如果我想查詢數據攝取從昨天開始,我應該做些什麼呢?

選擇從mytable *WHAT_SHOULD_BE_HERE> = current_timestamp()——間隔1天

換句話說,我需要查詢,以確保隻有一小部分的“文件”將“翹望”而不是整個數據集。很明顯對我如何達到使用分區,但攝入時間聚類?

1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

@mderela,你可以添加pipelines-Auto-optimize-zOrderCols參數優化數據跳過與z順序索引。z值是一個技術把相關信息在同一組文件,由data-skipping自動使用算法來減少需要讀取的數據量。z值數據,指定列的順序在order BY子句。

例如,要把性別,運行:

sql優化people_10m ZORDER(性別)

。為ZORDER可以指定多個列作為一個逗號分隔的列表,但是當地的有效性下降與每一個額外的列。z值列上,沒有統計數據是無效和浪費資源。數據不需要column-local統計如敏,馬克斯和計數。您可以配置重新排序的列統計信息收集特定列的模式或增加列的數量收集統計信息。

來源:文檔:data-skipping,文檔:教程

在原帖子查看解決方案

3回複3

Kaniz
社區經理
社區經理

@mderela,

如果你有使用攝入時間攝入數據聚類,您可以使用ingesttimestamp列來過濾數據基於攝入的時候。您的查詢看起來像這樣:

SELECT *從mytable ingesttimestamp > = current_timestamp()——間隔1天

這隻會攝取掃描數據在過去的一天。記住,這隻會工作,如果你有攝入時間聚類表。如果沒有,你必須分區數據或掃描整個數據集。

mderela
新的貢獻者二世

謝謝你!@Kaniz

你能把一點光配置嗎?所以,例如,我執行使用DLT攝入。我應該添加額外的參數(如pipelines.autoOptimize.zOrderCols以其他方式)或應該做的嗎?

Kaniz
社區經理
社區經理

@mderela,你可以添加pipelines-Auto-optimize-zOrderCols參數優化數據跳過與z順序索引。z值是一個技術把相關信息在同一組文件,由data-skipping自動使用算法來減少需要讀取的數據量。z值數據,指定列的順序在order BY子句。

例如,要把性別,運行:

sql優化people_10m ZORDER(性別)

。為ZORDER可以指定多個列作為一個逗號分隔的列表,但是當地的有效性下降與每一個額外的列。z值列上,沒有統計數據是無效和浪費資源。數據不需要column-local統計如敏,馬克斯和計數。您可以配置重新排序的列統計信息收集特定列的模式或增加列的數量收集統計信息。

來源:文檔:data-skipping,文檔:教程

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map