(這是一份stackoverflow我提出的一個問題在這裏這個社區,但也許是更適合的問題):
設置:三角洲湖,磚SQL powerbi所使用的計算。
我想知道關於下麵的場景:我們有一個列“時間戳”和派生列“日期”(這是“時間戳”)的日期,和我們選擇“partitionby”日期。當我們查詢我們使用“時間戳”過濾器,* *不* *日期。
我的理解是,databrikcs先天不會連接時間戳和日期,而且似乎不會得到任何分區的優勢。但由於實際上是分區的文件時間戳(隱式地),當磚看著所有的文件的最小/最大時間戳,它會發現它可以跳過畢竟大多數文件。我們似乎能得到相當的好處分區即使它在列我們不明確* *查詢中使用。
1。這是正確的,還是我missunderstood嗎?
2。的性能成本(大約)必須過濾掉文件以這種方式比直接使用分區。
3所示。將磚都最小/最大信息在內存中,還是要走出去,看看每個查詢的文件嗎?