解決:磚查詢性能當過濾c…-磚- 13248

埃裏克 · ‎10-15-2021

(這是一份stackoverflow我提出的一個問題在這裏這個社區,但也許是更適合的問題):

設置:三角洲湖,磚SQL powerbi所使用的計算。

我想知道關於下麵的場景:我們有一個列“時間戳”和派生列“日期”(這是“時間戳”)的日期,和我們選擇“partitionby”日期。當我們查詢我們使用“時間戳”過濾器,* *不* *日期。

我的理解是,databrikcs先天不會連接時間戳和日期,而且似乎不會得到任何分區的優勢。但由於實際上是分區的文件時間戳(隱式地),當磚看著所有的文件的最小/最大時間戳,它會發現它可以跳過畢竟大多數文件。我們似乎能得到相當的好處分區即使它在列我們不明確* *查詢中使用。

1。這是正確的,還是我missunderstood嗎?

2。的性能成本(大約)必須過濾掉文件以這種方式比直接使用分區。

3所示。將磚都最小/最大信息在內存中,還是要走出去,看看每個查詢的文件嗎?

埃裏克 · ‎10-17-2021

更新powerbi可以導入檢查機關文件,我們發現明顯快於csv。對於小數據集而言,這是很好,問題是與更大的數據集,特別是如果一個想要加入他們,powerbi變得極其緩慢。在python中加入以1 - 2秒可以在powerbi花費幾個小時的時間。但通過使用磚SQL我們可以卸載磚的連接,這是明顯更快。

Hubert_Dudek1 · ‎10-15-2021

在查詢我想查詢第一個日期(從時間戳生成我們想查詢)和比精確的時間戳,因此它將使用分區的好處。

埃裏克 · ‎10-17-2021

這是一個好主意,但是我想知道如果一個*不*包括分區列查詢。圖像例如我們給“商人”訪問通過powerbi磚sql的端點,並且他們可以自由創建儀表板,完全withouth分區列的理解。

Hubert_Dudek1 · ‎10-17-2021

嗬嗬我現在實際上同樣的問題。我雖然從數據創建準備數據集湖PowerBI隻選擇我看到他們這是SQL或OneDrive文件。

Hubert_Dudek1 · ‎10-17-2021

我剛剛檢查,您可以加載所有csv從你的力量datalake BI。發布並將創建數據集在PowerBI其他人可以使用(雲)你可以設置重新加載。我還需要檢查來實現增量刷新。我也不確定在PowerBI空間限製。

磚