從數據科學家開始使用數據映

本教程將使用Databricks數據科學與工程工作區引導您進行:創建群集和筆記本,從數據集中創建表,查詢表格並顯示查詢結果。

小費

作為本文的補充,請嚐試使用Databricks數據科學與工程登錄頁麵上的QuickStart教程。這是Databricks的5分鍾動手簡介。當您登錄數據映時,請尋找指南:QuickStart教程在主頁上,單擊啟動教程

快速啟動圖標和鏈接

如果您看不到教程,請從側邊欄中的角色開關中選擇數據科學和工程。

要求

您已登錄到數據映,並且您正在數據科學與工程工作區中。看在Google Cloud上啟動Databricks免費試用

數據科學與工程UI

登陸頁麵

從左側欄和常見任務列表在“著陸”頁麵上,您可以訪問基本數據助理數據科學與工程實體:工作區,簇,表,筆記本,工作和圖書館。工作空間是存儲您的數據鏈資產的特殊根文件夾,例如筆記本和庫以及您導入的數據。

使用側邊欄

您可以使用側邊欄訪問所有數據括號。側邊欄的內容取決於選定的角色:數據科學與工程,,,,機器學習, 或者SQL

  • 默認情況下,側邊欄以折疊狀態出現,隻有圖標可見。將光標移到側邊欄上以擴展到完整的視圖。

  • 要更改角色,請單擊Databricks徽標下方的圖標Databricks徽標,然後選擇一個角色。

    改變角色
  • 要固定角色,以便下次登錄時出現,請單擊引腳角色在角色旁邊。再次單擊它以刪除銷釘。

  • 利用菜單選項在側邊欄的底部,將側邊欄模式設置為汽車(默認行為),擴張, 或者坍塌

  • 當您打開機器學習相關的頁麵時,角色會自動切換到機器學習

得到幫助

要獲得幫助,請單擊幫助圖標幫助在左下角。

幫助菜單

步驟1:創建一個集群

群集是數據鏈驅動器計算資源的集合。創建一個集群:

  1. 在側邊欄中,單擊計算圖標計算

  2. 在計算頁麵上,單擊創建群集

  3. 在“創建群集”頁麵上,指定群集名稱快速開始並選擇7.3 LTS(Scala 2.12,Spark 3.0.1)在Databricks運行時版本下拉下。

  4. 點擊創建群集

步驟2:創建筆記本

筆記本是在Apache Spark群集上運行計算的單元組合。在工作區中創建筆記本:

  1. 在側邊欄中,單擊工作區圖標工作區

  2. 在工作區文件夾中,選擇唐創建>筆記本

    創建筆記本
  3. 在“創建筆記本”對話框上,輸入名稱並選擇SQL在語言下拉中。此選擇決定了默認語言筆記本。

  4. 點擊創造。筆記本電腦在頂部打開一個空單元。

步驟3:創建一個表

使用來自示例CSV數據文件的數據創建表示例數據集(Databricks-Dataset),安裝到的數據集集合Databricks文件係統(DBFS),安裝在Databricks群集上的分布式文件係統。您有兩個創建表的選項。

選項1:從CSV數據創建一個火花表

如果您想快速發展,請使用此選項,並且隻需要標準的性能級別即可。將此代碼段複製並粘貼到筆記本單元中:

降低桌子如果存在鑽石;創造桌子鑽石使用CSV選項((小路“/databricks-datasets/rdatasets/data-001/csv/ggplot2/diamonds.csv”,,,,標題“真的”

選項2:將CSV數據寫入Delta Lake格式並創建Delta表格

三角洲湖提供強大的交易存儲層,可快速閱讀和其他好處。Delta Lake格式由鑲木點文件和交易日誌組成。使用此選項在表格上獲得未來操作的最佳性能。

  1. 將CSV數據讀取到數據框架中,並以三角洲湖格式寫出。此命令使用python語言魔術命令,這使您可以用筆記本默認語言(SQL)以外的語言交織。將此代碼段複製並粘貼到筆記本單元中:

    Python鑽石=((火花格式((“ CSV”選項((“標頭”,,,,“真的”選項((“ Inferschema”,,,,“真的”加載((“/databricks-datasets/rdatasets/data-001/csv/ggplot2/diamonds.csv”鑽石格式((“三角洲”節省((“/mnt/delta/鑽石”
  2. 在存儲的位置創建一個三角洲表。將此代碼段複製並粘貼到筆記本單元中:

    降低桌子如果存在鑽石;創造桌子鑽石使用三角洲地點'/mnt/delta/diamonds/'

通過按下來運行單元格Shift + Enter。筆記本電腦會自動連接到您在步驟2中創建的群集上,並在單元格中運行命令。

步驟4:查詢桌子

運行SQL語句以按顏色查詢表格的平均鑽石價格。

  1. 要在筆記本上添加一個單元格,請在單元格底部鼠標,然後單擊添加單元格圖標。

    添加單元格
  2. 複製此片段並將其粘貼到單元格中。

    選擇顏色,,,,avg((價格作為價格鑽石團體經過顏色命令經過顏色
  3. Shift + Enter。筆記本顯示一張鑽石顏色和平均價格表。

    運行命令

步驟5:顯示數據

按顏色顯示平均鑽石價格的圖表。

  1. 單擊條形圖圖標圖表按鈕

  2. 點擊情節選項

    • 顏色進入鑰匙盒。

    • 價格進入值框。

    • 在聚合下拉列表中,選擇avg

      選擇聚合
  3. 點擊申請顯示條形圖。

    應用圖表類型