增量表屬性引用
Delta Lake儲備Delta表屬性開始三角洲。
.這些屬性可能具有特定的含義,並在設置這些屬性時影響行為。
默認表屬性
SparkSession中設置的Delta Lake配置將覆蓋會話中創建的新Delta Lake表的默認表屬性。SparkSession中使用的前綴與表屬性中使用的配置不同。
三角洲湖會議 |
SparkSession相依 |
---|---|
|
|
例如,設置delta.appendOnly=真正的
屬性為會話中創建的所有新Delta Lake表,設置如下:
集火花.磚.δ.屬性.違約.appendOnly=真正的
若要修改現有表的表屬性,請使用設置TBLPROPERTIES.
Delta表屬性
可用的Delta表屬性包括:
財產 |
---|
看到增量表屬性引用. 數據類型: 默認值: |
看到啟用自動優化. 數據類型: 默認值:(一) |
看到啟用自動優化. 數據類型: 默認值:(一) |
數據類型: 默認值: |
數據類型: 默認值:(一) |
是否為使用不同名稱的Delta表列和對應的Parquet列啟用列映射。 數據類型: 默認值: |
數據類型: 默認值: |
Delta Lake用於收集有關數據跳過的統計信息的列數。值為 數據類型: 默認值: |
Delta Lake在物理刪除數據文件之前保持邏輯刪除數據文件的最短時間。這是為了防止壓縮或分區覆蓋後失效的讀取器失敗。 這個值應該足夠大,以確保:
看到為時間旅行配置數據保留. 數據類型: 默認值: |
看到啟用變更數據提要. 數據類型: 默認值: |
事務必須與並發事務所做的修改隔離的程度。 有效值為 數據類型: 默認值: |
Delta表的曆史記錄保存了多長時間。 每次寫入檢查點時,Delta Lake都會自動清理超過保留間隔的日誌項。如果將此屬性設置為足夠大的值,則會保留許多日誌條目。這不會影響性能,因為對日誌的操作是常數時間。對曆史記錄的操作是並行的,但隨著日誌大小的增加將變得更加昂貴。 看到為時間旅行配置數據保留. 數據類型: 默認值: |
允許讀取此增量表的讀取器所需的最小協議讀取器版本。 看到Databricks如何管理Delta Lake功能兼容性?. 數據類型: 默認值: |
允許寫入此增量表的寫入器所需的最低協議寫入器版本。 看到Databricks如何管理Delta Lake功能兼容性?. 數據類型: 默認值: |
例如,當Delta Lake需要發送非常大量的Amazon S3調用以更好地跨S3服務器進行分區時,這可能會提高Amazon S3的性能。 看到增量表屬性引用. 數據類型: 默認值: |
當 看到增量表屬性引用. 數據類型: 默認值: |
新快照保留事務標識符的最短時間(例如, 數據類型: 默認值:(一) |
用於文件調優的目標文件大小(字節或更高單位)。例如, 數據類型: 默認值:(一) |
數據類型: 默認值:(一) |