樣本數據集
有各種各樣的樣本數據集由磚和可由第三方提供,您可以使用在你的磚工作空間。
統一目錄數據集
統一目錄提供的樣本數據集樣品
目錄。你可以檢查這些數據集數據瀏覽界麵並直接引用它們筆記本或在SQL編輯器通過使用<目錄名稱>。<模式名稱>。<表名稱>
模式。
的nyctaxi
模式(也稱為一個數據庫)包含了表旅行
,細節出租車騎在紐約市。下麵的語句返回第一個10記錄在此表:
選擇*從樣品。nyctaxi。旅行限製10
的tpch
模式包含的數據tpc - h基準測試。列出該模式中的表,運行:
顯示表在樣品。tpch
磚數據集(databricks-datasets)
磚包括各種樣本數據集的安裝DBFS。
請注意
磚的可用性和位置數據如有更改,恕不另行通知。
瀏覽數據磚數據集
瀏覽這些文件從Python, Scala或R筆記本,你可以使用磚公用事業。下麵的代碼列出了所有可用的磚的數據集。
顯示(dbutils。fs。ls(' / databricks-datasets '))
顯示(dbutils。fs。ls(“/ databricks-datasets”))
%fsls“/ databricks-datasets”
磚的信息數據集
磚的數據集的更多信息,您可以使用一個本地文件API打印出數據集自述
(如果可用)通過使用Python, R,或Scala筆記本在這段代碼示例所示。
f=開放(' / dbfs / databricks-datasets / README.md ',“r”)打印(f。讀())
scala。io。源。fromFile(“/ dbfs / databricks-datasets / README.md”)。foreach{打印}
圖書館(readr)f=read_line(“/ dbfs / databricks-datasets / README.md”,跳過=0,n_max=1 l)打印(f)
根據磚數據集創建一個表
這段代碼示例演示了如何使用SQLSQL編輯器,或如何使用SQL, Python, Scala或R筆記本電腦創建一個表,基於一個磚數據集:
創建表默認的。people10m選項(路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)
火花。sql(“創建表默認。people10m選項(路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
火花。sql(“創建表默認。people10m選項(路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
圖書館(SparkR)sparkR.session()sql(“創建表默認。people10m選項(路徑“dbfs: / databricks-datasets / learning-spark-v2 /人/ people-10m.delta”)")
第三方在CSV格式樣本數據集
磚有內置的工具來快速上傳第三方樣本數據集逗號分隔值(CSV)文件到磚工作區。一些流行的第三方樣本數據集可用以CSV格式:
樣本數據集 |
下載示例數據集作為一個CSV文件… |
|
---|---|---|
在數據網頁,點擊公園的數據,鬆鼠數據,或故事。 |
||
在GitHub庫,點擊數據集文件夾中。單擊包含目標數據集的子文件夾,然後單擊數據集的CSV文件。 |
||
在搜索結果頁麵,點擊目標搜索結果,和旁邊的CSV圖標,點擊下載。 |
||
在數據集的網頁上數據選項卡,數據選項卡,diamonds.csv,單擊下載圖標。 |
||
紐約出租車旅行持續時間(需要一個Kaggle賬戶) |
在數據集的網頁上數據選項卡,sample_submission.zip,單擊下載圖標。找到數據集的CSV文件,提取下載的ZIP文件的內容。 |
|
不明飛行物(需要一個data.world賬戶) |
數據集的網頁,旁邊nuforc_reports.csv,單擊下載圖標。 |
使用第三方磚工作空間的樣本數據集,執行以下操作:
根據第三方的指示下載數據集作為一個CSV文件到您的本地機器上。
CSV文件上傳從您的本地機器到磚工作區中。
使用導入的數據,使用磚SQL查詢數據。或者你可以使用筆記本來作為一個DataFrame加載數據。
第三方的樣本數據集內庫
一些第三方包括樣本數據集內庫,如Python包指數(PyPI)包或全麵的R檔案網絡(凹口)包。有關更多信息,請參見庫提供者的文檔。
安裝一個Python庫使用磚筆記本,請參閱Notebook-scoped Python庫。
安裝一個R庫使用磚筆記本,看到的Notebook-scoped R庫。