示例數據集(Databricks-Dataset)

數據映包括包括安裝到的各種數據集Databricks文件係統(DBFS)。這些數據集用於整個文檔中的示例中。

瀏覽數據集

在數據科學與工程中瀏覽這些文件,或使用Python,Scala或R從筆記本中學習,您可以使用Databricks實用程序。此示例中的代碼列出了所有可用的數據集數據集。

展示((dbutilsFSLS(('/databricks-datasets'))
展示((dbutilsFSLS((“/databricks-datasets”))
FSLS“/databricks-datasets”

獲取有關數據集數據集的信息

為了獲取有關數據集的更多信息,您可以使用本地文件API打印數據集讀書我(如果有的話),如本代碼示例所示,通過在數據科學與工程或Databricks機器學習的筆記本中使用Python,R或Scala。

F=打開(('/dbfs/databricks-datasets/readme.md',,,,'r'打印((F())
Scalaio資源從文件((“ /dbfs/databricks-datasets/readme.md”)。foreach{打印}
圖書館((readrF=read_lines((“ /dbfs/databricks-datasets/readme.md”,,,,跳過=0,,,,n_max=-1L打印((F

基於Databricks數據集創建表格

此代碼示例演示了如何在筆記本中使用Python,Scala或R來創建基於Databricks數據集的表:

火花SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
火花SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
圖書館((火花Sparkr.Session()SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')