跳轉到主要內容

Apache火花™教程:開始使用Apache火花磚

概述

本教程模塊能幫助你快速掌握使用Apache火花。我們簡要討論一下關鍵概念,所以你可以到Apache火花編寫你的第一個工作。在本指南的其他教程模塊,您將有機會更深入的話題,你的選擇。

模塊在本教程中,您將學習:

  • 關鍵Apache火花接口
  • 如何編寫你的第一個Apache火花工作嗎
  • 如何訪問加載數據磚數據集

我們還提供樣的筆記本你可以導入訪問和運行的所有代碼示例包含在模塊。

火花接口

有三個關鍵的火花接口,你應該知道。

彈性分布式數據集(抽樣)
Apache火花的第一個抽象是抽樣。一個接口是一個序列的數據對象包含一個或多個類型坐落在機器(集群)的集合。抽樣可以創建以多種方式和“最低”API可用。雖然這是原始數據結構Apache火花,你應該關注DataFrame API,它的超集抽樣的功能。抽樣API在Java、Python、和Scala語言。

DataFrame
這些是相似的概念你可能熟悉的DataFrame熊貓Python庫和R語言。DataFrame API在Java、Python, R, Scala語言。

數據集
DataFrame和抽樣。它提供了輸入接口,可在抽樣DataFrame的同時提供方便。可用的數據API在Java和Scala語言。

在很多情況下,特別是在性能優化嵌入DataFrames和數據集,它將不需要使用抽樣。但重要的是要理解抽樣抽象,因為:

  • 抽樣是底層基礎設施,允許火花運行太快並提供數據沿襲。
  • 如果你進入更高級的組件的火花,可能需要使用抽樣。
  • 火花UI中的可視化參考抽樣。

開發引發的應用程序時,您通常使用DataFrames數據集

編寫你的第一個Apache火花工作

編寫你的第一個Apache火花的工作,你將代碼添加到細胞的磚筆記本。這個示例使用Python。更多的信息,您還可以參考Apache引發快速入門指南

第一個命令列表中的一個文件夾的內容磚文件係統:

#看一下文件係統顯示器(dbutils.fs.ls (“/ databricks-datasets /樣本/ docs /”))

DBFS-readme-sm

下一個命令使用火花,SparkSession在每一個筆記本,閱讀README.md文本文件並創建一個DataFrame命名文本文件:

文本文件= spark.read.text (“/ databricks-datasets /樣本/ docs / README.md”)

數的文本文件,應用DataFrame行動:

文本文件。()

你可能會注意到的一件事是,第二個命令讀取文本文件,不生成任何輸出而第三命令,執行,。這樣做的原因是,第一個命令是一個轉換而第二個是一個行動。轉換是懶惰的隻有當一個動作跑。這允許火花來優化性能(例如,運行一個過濾器之前加入),而不是連續運行命令。轉換和操作的完整列表,請參閱Apache火花編程指南:轉換行動

磚的數據集

磚包括各種各樣的數據集在工作區中,您可以使用它們來學習火花或測試算法。你會看到這些在整個入門指南。數據是可用的/ databricks-datasets文件夾中。

我們還提供樣的筆記本你可以導入訪問和運行的所有代碼示例包含在模塊。

額外的資源

繼續下一個模塊:

Baidu
map