優化建議磚

磚提供了許多優化lakehouse支持多種工作負載,從大規模的ETL處理特別的交互式查詢。許多這些優化自動發生。你得到好處簡單使用磚。此外,大多數磚運行時特性需要三角洲湖,默認存儲層磚中用於創建表。

磚配置默認值,優化工作負載。但是,在某些情況下,改變配置設置提高了性能。

磚運行時性能增強

請注意

使用最新的磚運行時利用最新的性能增強。這裏所有的行為記錄都在磚默認啟用運行時10.4 LTS以上。

  • 磁盤緩存加速重複讀取對拚花數據文件加載數據到磁盤卷附加到計算集群。

  • 動態文件修剪提高查詢性能,跳過目錄不包含數據文件相匹配的查詢謂詞。

  • 低洗牌合並減少了數據文件重寫的數量合並操作,減少了需要recaculateZORDER集群。

  • Apache 3.0引入了火花自適應查詢執行很多操作,它提供了增強的性能。

磚對增強性能的建議

  • 你可以克隆表在磚深或淺源數據集的副本。

  • 基於成本的優化器加速查詢性能利用表統計信息。

  • 你可以自動優化三角洲表使用寫優化和自動文件壓實;這是特別有用的長時間運行的結構化流工作。

  • 您可以使用SQL與火花半結構化的JSON數據沒有解析的字符串。

  • 高階函數提供內置的,很多操作優化性能,沒有共同的火花運營商。高階函數提供性能優勢超過用戶定義函數。

  • 磚提供了大量的內置運營商和特殊的語法來處理複雜數據類型,包括數組、結構、和JSON字符串。

  • 您可以手動調整設置連接,包括範圍或與然而包含數據

選擇行為

  • 磚提供了一種編寫可序列化的默認隔離保證;改變了隔離級別序列化可以減少並發操作的吞吐量,但可能需要閱讀時可串行性是必需的。

  • 您可以使用布隆過濾器的索引減少的可能性掃描數據文件不包含記錄匹配給定的條件。