DBFS CLI
運行Databricks DBFS CLI子命令,並將它們附加到磚fs
(或別名dbfs
),在所有DBFS路徑前加上dbfs: /
。這些子命令調用DBFS API 2.0。
Databricks fs -h
用法:databricks fs [OPTIONS] COMMAND [ARGS]…與DBFS交互的實用程序。DBFS路徑均以DBFS:/為前綴。本地路徑可以是絕對路徑也可以是本地路徑。選項:-v,——version -h,——help顯示此信息並退出。命令如下:cat顯示文件內容。對目錄無效。從DBFS拷貝文件到DBFS。選項:-r,——recursive——overwrite覆蓋已經存在的文件。ls列出DBFS中的文件。 Options: --absolute Displays absolute paths. -l Displays full information including size and file type. mkdirs Makes directories in DBFS. mv Moves a file between two DBFS paths. rm Removes files from DBFS. Options: -r, --recursive
對於列出、移動或刪除超過10k個文件的操作,我們強烈反對使用DBFS CLI。
的
列表
操作(磚fsls
)會在約60秒後暫停。的
移動
操作(磚fsmv
)將在大約60秒後超時,可能導致部分數據被移動。的
刪除
操作(磚fsrm
)將逐步刪除批量文件。
我們建議您在集群上下文中執行此類操作,使用文件係統實用程序(dbutls .fs)。dbutils.fs
涵蓋了DBFS REST API的功能範圍,但來自筆記本。使用筆記本運行這樣的操作可以提供更好的控製,比如選擇性刪除、可管理性以及自動化周期性作業的可能性。
複製文件
要顯示使用文檔,請運行磚fscp——幫助
。
數據庫文件cp dbfs:/tmp/your_file.txt dbfs:/parent/child/grandchild/my_file.txt——覆蓋
如果成功,此命令將不顯示任何內容。
列出有關文件和目錄的信息
要顯示使用文檔,請運行磚fsls——幫助
。
Databricks fs ls dbfs:/tmp——absolute -l
dbfs:/tmp/LoanStats.csv 1590005159000文件40dbfs:/tmp/file_b.txt 1603991038000Dir 0 dbfs:/tmp/hive 0目錄0 dbfs:/tmp/mlflow 0文件385 dbfs:/tmp/ multiline。json 1597770632000Dir 0 dbfs:/tmp/new 0目錄0 dbfs:/tmp/parent 0文件243 dbfs:/tmp/test。json 1597770628000文件40dbfs:/tmp/test_dbfs.txt 1603989162000