取消
顯示的結果
而不是尋找
你的意思是:

為什麼執行太快?

虛擬現實
貢獻者

我有一個表,全掃描的需要~ 20分鍾在我的集群。該表有“時間”和“天”日期時間戳列列。後者計算(手動)“時間”截斷和用於分區。

我查詢的表使用謂詞基於“時間”(包括“天”不是),但它太快(~ 10 s)工作。我希望不使用分區跳過。解釋還顯示“PartitionFilters:[]”,所以我假設分區不能占性能增益。事實上,添加或刪除“天”謂詞似乎並沒有任何性能的影響。

如何解釋查詢返回的結果這麼快(~ 10 s) ?還有什麼其他的機製可以提供這樣的性能提升?

表:

myschema創建表。mytable(時間的時間戳、TagName字符串值翻倍,質量INT,天日期,isLate布爾)用δ分區(天,isLate)

查詢:

選擇date_trunc(“一分鍾”,時間),從myschema TagName, avg(值)的價值。mytable current_timestamp之間在時間()——間隔3天,current_timestamp group by date_trunc()(“一分鍾”,時間),TagName

更新1:

輸入顯示的數量是可疑的小階段:

階段統計DAG

12個回複12

開發更多的點# 1,即使在一個簡單的查詢“選擇計數(時間)從mytable之間“2018-11-27”,“2018-11-30”“隻能用很短的時間間隔,讀文件的數量是一直小和修剪文件數量大。

刪除數據這讓我覺得一切都是開始的時候過濾器,和少量的時間與其他列文件意味著少量的文件。但是最主要的問題是如何使修剪嗎?也許鋪鐵軌最大/最小值/文件之類的?

我想我發現了它:https://stackoverflow.com/a/57891876/947012

這可以解釋性能,由於分區,大多數可以跳過文件基於拚花元數據。不使用分區功能,但貢獻數據組織到單獨的文件中。

這是我的理論……確認仍然感興趣。我想知道如果它是現實的,它讀取頁腳在5秒~ 5000文件的實現,跳過。

Kaniz
社區經理
社區經理

嗨@Vladimir Ryabtsev,我們一直沒有收到你自從上次反應@Uma Maheswara Rao Desula,我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map