取消
顯示的結果
而不是尋找
你的意思是:

磚上過濾時查詢性能劃分字段列相關

埃裏克
重視貢獻二世

(這是一份stackoverflow我提出的一個問題在這裏這個社區,但也許是更適合的問題):

設置:三角洲湖,磚SQL powerbi所使用的計算。

我想知道關於下麵的場景:我們有一個列“時間戳”和派生列“日期”(這是“時間戳”)的日期,和我們選擇“partitionby”日期。當我們查詢我們使用“時間戳”過濾器,* *不* *日期。

我的理解是,databrikcs先天不會連接時間戳和日期,而且似乎不會得到任何分區的優勢。但由於實際上是分區的文件時間戳(隱式地),當磚看著所有的文件的最小/最大時間戳,它會發現它可以跳過畢竟大多數文件。我們似乎能得到相當的好處分區即使它在列我們不明確* *查詢中使用。

1。這是正確的,還是我missunderstood嗎?

2。的性能成本(大約)必須過濾掉文件以這種方式比直接使用分區。

3所示。將磚都最小/最大信息在內存中,還是要走出去,看看每個查詢的文件嗎?

6個回答6

Hubert_Dudek1
尊敬的貢獻者三世

1 gb /數據集Pro,溢價100 gb。

埃裏克
重視貢獻二世

更新powerbi可以導入檢查機關文件,我們發現明顯快於csv。對於小數據集而言,這是很好,問題是與更大的數據集,特別是如果一個想要加入他們,powerbi變得極其緩慢。在python中加入以1 - 2秒可以在powerbi花費幾個小時的時間。但通過使用磚SQL我們可以卸載磚的連接,這是明顯更快。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map