DBFS CLI

運行Databricks DBFS CLI子命令,並將它們附加到fs(或別名dbfs),在所有DBFS路徑前加上dbfs: /。這些子命令調用DBFS API 2.0

Databricks fs -h
用法:databricks fs [OPTIONS] COMMAND [ARGS]…與DBFS交互的實用程序。DBFS路徑均以DBFS:/為前綴。本地路徑可以是絕對路徑也可以是本地路徑。選項:-v,——version -h,——help顯示此信息並退出。命令如下:cat顯示文件內容。對目錄無效。從DBFS拷貝文件到DBFS。選項:-r,——recursive——overwrite覆蓋已經存在的文件。ls列出DBFS中的文件。 Options: --absolute Displays absolute paths. -l Displays full information including size and file type. mkdirs Makes directories in DBFS. mv Moves a file between two DBFS paths. rm Removes files from DBFS. Options: -r, --recursive

對於列出、移動或刪除超過10k個文件的操作,我們強烈反對使用DBFS CLI。

  • 列表操作(fsls)會在約60秒後暫停。

  • 移動操作(fsmv)將在大約60秒後超時,可能導致部分數據被移動。

  • 刪除操作(fsrm)將逐步刪除批量文件。

我們建議您在集群上下文中執行此類操作,使用文件係統實用程序(dbutls .fs)dbutils.fs涵蓋了DBFS REST API的功能範圍,但來自筆記本。使用筆記本運行這樣的操作可以提供更好的控製,比如選擇性刪除、可管理性以及自動化周期性作業的可能性。

列出文件的內容

要顯示使用文檔,請運行fs——幫助

Databricks fs cat dbfs:/tmp/my-file.txt
Apache Spark太棒了!

複製文件

要顯示使用文檔,請運行fscp——幫助

數據庫文件cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt——覆蓋

如果成功,此命令將不顯示任何內容。

列出有關文件和目錄的信息

要顯示使用文檔,請運行fsls——幫助

Databricks fs ls dbfs:/tmp——absolute -l
dbfs:/tmp/LoanStats.csv 1590005159000文件40dbfs:/tmp/file_b.txt 1603991038000Dir 0 dbfs:/tmp/hive 0目錄0 dbfs:/tmp/mlflow 0文件385 dbfs:/tmp/ multiline。json 1597770632000Dir 0 dbfs:/tmp/new 0目錄0 dbfs:/tmp/parent 0文件243 dbfs:/tmp/test。json 1597770628000文件40dbfs:/tmp/test_dbfs.txt 1603989162000

創建目錄

要顯示使用文檔,請運行fsmkdir——幫助

Databricks fs mkdirs dbfs:/tmp/new-dir

如果成功,此命令將不顯示任何內容。

移動文件

要顯示使用文檔,請運行fsmv——幫助

數據庫文件mv:/tmp/my-file.txt dbfs:/parent/child/grandchild/my-file.txt

如果成功,此命令將不顯示任何內容。

刪除文件

要顯示使用文檔,請運行fsrm——幫助

數據庫文件rm dbfs:/tmp/parent/child/grandchild/my-file.txt
刪除成功。