開始使用磚作為數據的科學家
本教程將引導您完成使用磚數據科學與工程工作區中創建一個集群和一個筆記本,從一個數據集創建一個表,表查詢,並顯示查詢結果。
提示
作為本文的補充,試著快速入門教程,可以在你的磚數據科學與工程的著陸頁。這是一個5分鍾的介紹磚。當你登錄到磚,尋找導遊:快速入門教程在主頁上,單擊開始教程。
如果你不看到教程,從角色轉換開關選擇數據科學與工程在側邊欄。
您還可以使用磚起程拓殖的提供者本文創建的資源。看到創建一個集群,一個筆記本,一份工作與磚起程拓殖的提供者。
需求
你登錄數據磚,你在數據科學與工程工作區。看到注冊一個免費試用。
數據科學與工程UI
從左邊欄的常見的任務在著陸頁,你訪問基本數據磚數據科學與工程實體:工作區、集群、表、筆記本,工作,和圖書館。工作區是特殊的根文件夾,存儲你的磚的資產,如筆記本電腦和圖書館,和您導入的數據。
步驟1:創建一個集群
集群是一組數據磚計算資源。創建一個集群:
在側邊欄中,單擊計算。
在計算頁麵,點擊創建集群。
在創建集群頁麵上,指定集群名稱快速入門並選擇7.3 LTS (Scala 2.12,火花3.0.1)下拉磚的運行時版本。
點擊創建集群。
步驟2:創建一個筆記本
一個筆記本是細胞的集合,一個Apache火花集群上運行計算。在工作區中創建一個筆記本:
在側邊欄中,單擊工作空間。
在工作區文件夾,選擇創建>筆記本。
筆記本創建對話框,並選擇輸入一個名稱SQL在語言下拉。這個選擇決定了默認的語言的筆記本。
點擊創建。筆記本打開頂部有一個空單元。
步驟3:創建一個表
創建一個表使用數據從一個示例CSV數據文件中可用樣本數據集(databricks-datasets),數據集的集合磚文件係統(DBFS)是什麼?,一個分布式文件係統安裝在磚集群。你有兩種選擇來創建表。
選項1:創建一個火花從CSV數據表
使用這個選項如果你想快,你隻需要標準的性能水平。這個代碼片段複製並粘貼到一個筆記本電池:
下降表如果存在鑽石;創建表鑽石使用CSV選項(路徑“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”,頭“真正的”)
選項2:CSV數據寫入三角洲湖格式和創建一個增量表
三角洲湖提供了一個強大的事務性存儲層,使快速讀取和其他福利。三角洲湖格式由檢查機關文件加上一個事務日誌。使用這個選項來獲得最佳的性能在未來操作放在桌子上。
CSV數據讀入DataFrame三角洲湖格式寫出來。這個命令使用Python語言的魔力命令在其他語言,它允許您交錯命令比筆記本默認語言(SQL)。這個代碼片段複製並粘貼到一個筆記本電池:
%python鑽石=(火花。讀。格式(“csv”)。選項(“頭”,“真正的”)。選項(“inferSchema”,“真正的”)。負載(“/ databricks-datasets / Rdatasets /數據- 001 / csv / ggplot2 / diamonds.csv”))鑽石。寫。格式(“δ”)。保存(“/ mnt /δ/鑽石”)
創建一個增量表的存儲位置。這個代碼片段複製並粘貼到一個筆記本電池:
下降表如果存在鑽石;創建表鑽石使用δ位置“/ mnt /δ/鑽石”
運行細胞按SHIFT + ENTER。筆記本自動連接到集群您在步驟2中創建並運行命令在細胞中。
第四步:查詢該表
運行一個SQL語句查詢平均鑽石價格的表的顏色。
添加一個筆記本電池,電池底部並單擊鼠標圖標。
粘貼在細胞中複製這個片段。
選擇顏色,avg(價格)作為價格從鑽石集團通過顏色訂單通過顏色
新聞SHIFT + ENTER。筆記本顯示表的鑽石顏色和平均價格。