z值將會幫助你提高查詢速度。您可以運行你的z值,當你執行你的優化工作。更多細節請查看文檔https://docs.m.eheci.com/delta/optimizations/file-mgmt.html z-ordering-multi-dimensional-clusteri……
z值將會幫助你提高查詢速度。您可以運行你的z值,當你執行你的優化工作。更多細節請查看文檔https://docs.m.eheci.com/delta/optimizations/file-mgmt.html z-ordering-multi-dimensional-clusteri……
Apache火花沒有關係數據庫的特點,你可以搜索一個主鍵。被迫讀在100%的數據(一般來說),這損害了性能在g +尺度和測試每一個值在你的查詢。
最近的火花可以傳統的指數是磁盤分區。磁盤分區允許您編寫part-files目錄,這是一種指數中得到的好處閱讀所有的數據文件直接從一個隻有一部分。一個例子將分區20年的數據,1999年查詢所有數據隻會讀到這些部分文件在目錄中為1999。這是有利於low-cardinality搜索(如1年20,一旦城市10000)。
z值給Apache火花帶來較高基數執行搜索的能力,或針搜索,關係型數據庫是如此擅長。簡而言之,它能發現一個獨特的交易記錄的拍字節的轉換速度是空前的股票的解決方案相比,掃描每一個pb級數據集的記錄。它通過利用三角洲的日誌文件和跟蹤part-file你記錄(或者說索引的記錄)位於。這意味著它隻讀入這些part-files指數“可能”是相對於100%的數據,或者如果你是分區,整個磁盤分區的數據。
在這裏你可以看到這一切在行動:https://www.databricks.training/spark-ui-simulator/experiment-1337/v002-S/index.html。如果你看看Cmd 3,它建立一個基線讀隻有一個記錄的tb數據集上使用128核17分鍾。在Cmd 4相同,您可以看到查詢執行在不到3分鍾對相同的數據集,隻有Z-Orderd。
非常特定的“當”的一部分,你的問題,你想查詢時使用z值代表針類型的查詢,或與它回到傳統的數據庫,為你的主鍵和惟一的索引。