什麼是數據庫文件係統(DBFS)?

Databricks文件係統(DBFS)是掛載到Databricks工作空間中的分布式文件係統,可在Databricks集群上使用。DBFS是可伸縮對象存儲之上的抽象,它將類unix的文件係統調用映射到本地雲存儲API調用。

請注意

Databricks工作區使用DBFS根卷,默認所有用戶均可訪問。Databricks建議不要將生產數據存儲在此位置。

DBFS可以做什麼?

DBFS通過將雲對象存儲uri映射到相對路徑來提供方便。

  • 允許你與對象存儲交互使用目錄和文件語義,而不是雲特定的API命令。

  • 允許你雲對象存儲位置,這樣您就可以將存儲憑證映射到Databricks工作區中的路徑。

  • 簡化了將文件持久化到對象存儲的過程,允許在集群終止時安全地刪除虛擬機和附加卷存儲。

  • 為存儲初始化腳本、jar、庫和集群初始化配置提供了一個方便的位置。

  • 為使用OSS深度學習庫進行模型訓練期間創建的檢查點文件提供了一個方便的位置。

掛載對象存儲

通過將對象存儲掛載到DBFS,可以像訪問本地文件係統一樣訪問對象存儲中的對象。掛載存儲訪問存儲所需的Hadoop配置,因此不需要在代碼中或在集群配置期間指定這些設置。

有關更多信息,請參見在Databricks上掛載雲對象存儲

DBFS根目錄是什麼?

DBFS根是Databricks工作空間的默認存儲位置,在包含Databricks工作空間的雲帳戶中作為工作空間創建的一部分提供。有關DBFS根目錄配置和部署的詳細信息,請參見配置AWS存儲.有關保護DBFS根目錄中的數據的最佳實踐,請參見使用DBFS根目錄的建議

Databricks的一些用戶可能會將DBFS根目錄稱為“DBFS”或“DBFS”;區分DBFS是用於與雲對象存儲中的數據交互的文件係統,而DBFS根是雲對象存儲的位置是很重要的。使用DBFS與DBFS根進行交互,但它們是不同的概念,DBFS在DBFS根之外還有許多應用程序。

DBFS根包含許多特殊位置,這些位置作為用戶在工作區中執行的各種操作的默認值。詳細信息請參見DBFS根目錄中默認有哪些目錄?

DBFS如何與Unity Catalog一起工作?

Unity Catalog添加了外部位置和托管存儲憑證的概念,以幫助組織提供對雲對象存儲中的數據的最低權限訪問。Unity Catalog還為托管表提供了一個新的默認存儲位置。一些安全配置提供了對Unity catalog管理的資源和DBFS的直接訪問。Databricks整理了一些建議使用DBFS和統一目錄