從數據科學家開始使用數據映
本教程將使用Databricks數據科學與工程工作區引導您進行:創建群集和筆記本,從數據集中創建表,查詢表格並顯示查詢結果。
小費
作為本文的補充,請嚐試使用Databricks數據科學與工程登錄頁麵上的QuickStart教程。這是Databricks的5分鍾動手簡介。當您登錄數據映時,請尋找指南:QuickStart教程在主頁上,單擊啟動教程。
如果您看不到教程,請從側邊欄中的角色開關中選擇數據科學和工程。
要求
您已登錄到數據映,並且您正在數據科學與工程工作區中。看在Google Cloud上啟動Databricks免費試用。
數據科學與工程UI
從左側欄和常見任務列表在“著陸”頁麵上,您可以訪問基本數據助理數據科學與工程實體:工作區,簇,表,筆記本,工作和圖書館。工作空間是存儲您的數據鏈資產的特殊根文件夾,例如筆記本和庫以及您導入的數據。
步驟1:創建一個集群
群集是數據鏈驅動器計算資源的集合。創建一個集群:
在側邊欄中,單擊計算。
在計算頁麵上,單擊創建群集。
在“創建群集”頁麵上,指定群集名稱快速開始並選擇7.3 LTS(Scala 2.12,Spark 3.0.1)在Databricks運行時版本下拉下。
點擊創建群集。
步驟2:創建筆記本
筆記本是在Apache Spark群集上運行計算的單元組合。在工作區中創建筆記本:
在側邊欄中,單擊工作區。
在工作區文件夾中,選擇創建>筆記本。
在“創建筆記本”對話框上,輸入名稱並選擇SQL在語言下拉中。此選擇決定了默認語言筆記本。
點擊創造。筆記本電腦在頂部打開一個空單元。
步驟3:創建一個表
使用來自示例CSV數據文件的數據創建表示例數據集(Databricks-Dataset),安裝到的數據集集合Databricks文件係統(DBFS),安裝在Databricks群集上的分布式文件係統。您有兩個創建表的選項。
選項1:從CSV數據創建一個火花表
如果您想快速發展,請使用此選項,並且隻需要標準的性能級別即可。將此代碼段複製並粘貼到筆記本單元中:
降低桌子如果存在鑽石;創造桌子鑽石使用CSV選項((小路“/databricks-datasets/rdatasets/data-001/csv/ggplot2/diamonds.csv”,,,,標題“真的”)
選項2:將CSV數據寫入Delta Lake格式並創建Delta表格
三角洲湖提供強大的交易存儲層,可快速閱讀和其他好處。Delta Lake格式由鑲木點文件和交易日誌組成。使用此選項在表格上獲得未來操作的最佳性能。
將CSV數據讀取到數據框架中,並以三角洲湖格式寫出。此命令使用python語言魔術命令,這使您可以用筆記本默認語言(SQL)以外的語言交織。將此代碼段複製並粘貼到筆記本單元中:
%Python鑽石=((火花。讀。格式((“ CSV”)。選項((“標頭”,,,,“真的”)。選項((“ Inferschema”,,,,“真的”)。加載((“/databricks-datasets/rdatasets/data-001/csv/ggplot2/diamonds.csv”))鑽石。寫。格式((“三角洲”)。節省((“/mnt/delta/鑽石”)
在存儲的位置創建一個三角洲表。將此代碼段複製並粘貼到筆記本單元中:
降低桌子如果存在鑽石;創造桌子鑽石使用三角洲地點'/mnt/delta/diamonds/'
通過按下來運行單元格Shift + Enter。筆記本電腦會自動連接到您在步驟2中創建的群集上,並在單元格中運行命令。
步驟4:查詢桌子
運行SQL語句以按顏色查詢表格的平均鑽石價格。
要在筆記本上添加一個單元格,請在單元格底部鼠標,然後單擊圖標。
複製此片段並將其粘貼到單元格中。
選擇顏色,,,,avg((價格)作為價格從鑽石團體經過顏色命令經過顏色
按Shift + Enter。筆記本顯示一張鑽石顏色和平均價格表。