什麼是數據庫文件係統(DBFS)?
Databricks文件係統(DBFS)是掛載到Databricks工作空間中的分布式文件係統,可在Databricks集群上使用。DBFS是可伸縮對象存儲之上的抽象,它將類unix的文件係統調用映射到本地雲存儲API調用。
請注意
Databricks工作區使用DBFS根卷,默認所有用戶均可訪問。Databricks建議不要將生產數據存儲在此位置。
掛載對象存儲
通過將對象存儲掛載到DBFS,可以像訪問本地文件係統一樣訪問對象存儲中的對象。掛載存儲訪問存儲所需的Hadoop配置,因此不需要在代碼中或在集群配置期間指定這些設置。
有關更多信息,請參見在Databricks上掛載雲對象存儲.
DBFS根目錄是什麼?
的DBFS根是Databricks工作空間的默認存儲位置,在包含Databricks工作空間的雲帳戶中作為工作空間創建的一部分提供。有關DBFS根目錄配置和部署的詳細信息,請參見配置AWS存儲.有關保護DBFS根目錄中的數據的最佳實踐,請參見使用DBFS根目錄的建議.
Databricks的一些用戶可能會將DBFS根目錄稱為“DBFS”或“DBFS”;區分DBFS是用於與雲對象存儲中的數據交互的文件係統,而DBFS根是雲對象存儲的位置是很重要的。使用DBFS與DBFS根進行交互,但它們是不同的概念,DBFS在DBFS根之外還有許多應用程序。
DBFS根包含許多特殊位置,這些位置作為用戶在工作區中執行的各種操作的默認值。詳細信息請參見DBFS根目錄中默認有哪些目錄?.
DBFS如何與Unity Catalog一起工作?
Unity Catalog添加了外部位置和托管存儲憑證的概念,以幫助組織提供對雲對象存儲中的數據的最低權限訪問。Unity Catalog還為托管表提供了一個新的默認存儲位置。一些安全配置提供了對Unity catalog管理的資源和DBFS的直接訪問。Databricks整理了一些建議使用DBFS和統一目錄.