Apache火花™教程:開始使用Apache火花磚
概述
Apache火花DataFrame API提供了一組豐富的功能(選擇列、過濾、連接、聚集,等等),可以有效地解決常見的數據分析問題。DataFrames還允許您將操作無縫地與自定義Python, R, Scala和SQL代碼。模塊在本教程中,您將學習如何:
- 加載示例數據
- 查看DataFrame
- 運行SQL查詢
- 可視化DataFrame
我們也提供一個樣的筆記本你可以導入訪問和運行的所有代碼示例包含在模塊。
加載示例數據
開始使用DataFrames最簡單的方法是使用一個磚中可用數據集的例子/ databricks-datasets
在磚工作區文件夾訪問。訪問文件,城市人口和房屋的售價中值相比,加載文件/ databricks-datasets /樣本/ population-vs-price / data_geo.csv
。
% python#使用火花CSV和選項指定數據源:# -文件的第一行是標題#——自動推斷出數據的模式data = spark.read。格式(“csv”).option (“頭”,“真正的”).option (“inferSchema”,“真正的”).load (“/ databricks-datasets /樣本/ population-vs-price / data_geo.csv”)data.cache ()#緩存數據更快的重用data = data.dropna ()#行用缺失值下降
查看DataFrame
現在,您已經創建了數據
DataFrame,您可以快速訪問數據使用標準的火花命令等帶()
。例如,您可以使用命令data.take (10)
查看第十行數據
DataFrame。因為這是一個SQL筆記本,接下來的幾個命令使用% python
神奇的命令。
% pythondata.take (10)
查看這些數據以表格格式,您可以使用磚顯示()
命令而不是出口數據的第三方工具。
% python顯示器(數據)
運行SQL查詢
可以發出SQL查詢之前,您必須保存數據
DataFrame臨時表:
% python#注冊表可以通過SQL訪問上下文data.createOrReplaceTempView (“data_geo”)
然後,在一個新細胞,指定一個SQL查詢列表2015年平均銷售價格由國家:
選擇“國家代碼”,2015年平均銷售價格從data_geo
或者,為人口估計在華盛頓州的查詢:
選擇城市,“2014人口估計”從data_geo哪裏“國家代碼”=“佤邦”;
可視化DataFrame
使用磚的一個額外的好處顯示()
命令,可以快速查看這些數據的嵌入式可視化。點擊旁邊的向下箭頭
顯示一個可視化列表類型:
然後,選擇地圖圖標創建一個地圖可視化的銷售價格的SQL查詢
我們也提供一個樣的筆記本你可以導入訪問和運行的所有代碼示例包含在模塊。