示例數據集(Databricks-Dataset)
數據映包括包括安裝到的各種數據集Databricks文件係統(DBFS)。這些數據集用於整個文檔中的示例中。
瀏覽數據集
在數據科學與工程中瀏覽這些文件,或使用Python,Scala或R從筆記本中學習,您可以使用Databricks實用程序。此示例中的代碼列出了所有可用的數據集數據集。
展示((dbutils。FS。LS(('/databricks-datasets'))
展示((dbutils。FS。LS((“/databricks-datasets”))
%FSLS“/databricks-datasets”
獲取有關數據集數據集的信息
為了獲取有關數據集的更多信息,您可以使用本地文件API打印數據集讀書我
(如果有的話),如本代碼示例所示,通過在數據科學與工程或Databricks機器學習的筆記本中使用Python,R或Scala。
F=打開(('/dbfs/databricks-datasets/readme.md',,,,'r')打印((F。讀())
Scala。io。資源。從文件((“ /dbfs/databricks-datasets/readme.md”)。foreach{打印}
圖書館((readr)F=read_lines((“ /dbfs/databricks-datasets/readme.md”,,,,跳過=0,,,,n_max=-1L)打印((F)
基於Databricks數據集創建表格
此代碼示例演示了如何在筆記本中使用Python,Scala或R來創建基於Databricks數據集的表:
火花。SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta'))
火花。SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta'))
圖書館((火花)Sparkr.Session()SQL((“創建表Default.people10m選項(路徑'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta'))