Apache Spark API參考

Databricks構建在Apache Spark之上，Apache Spark是一個用於大數據和機器學習的統一分析引擎。有關更多信息，請參見Apache Spark -什麼是Spark在Databricks網站上。

Apache Spark為大型數據集提供了易於使用的api。這包括用於轉換數據的超過100個操作符的集合，以及用於操作半結構化數據的熟悉的數據幀api。這些api包括:

PySpark apiPython開發人員。看到PySpark入門．關鍵類包括:
- SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到Spark Session接口而且起點:SparkSession．
- DataFrame-分組為指定列的分布式數據集合。看到數據集和數據框架，創建DataFrames，DataFrame api,DataFrame功能．
SparkR api為R開發人員。看到SparkR (R on Spark)開發者指南．關鍵類包括:
- SparkSession- SparkSession是SparkR的入口點。看到起點:SparkSession．
- SparkDataFrame-分組為指定列的分布式數據集合。看到數據集和數據框架，創建DataFrames,創建SparkDataFrames．
Scala api．關鍵類包括:
- SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到起點:SparkSession．
- 數據集-領域特定對象的強類型集合，可以使用函數或關係操作並行轉換。每一個數據集也有一個叫做DataFrame的非類型化視圖，它是數據集的行．看到數據集和數據框架，創建數據集，創建DataFrames,DataFrame功能．
Java api．關鍵類包括:
- SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到起點:SparkSession．
- 數據集-領域特定對象的強類型集合，可以使用函數或關係操作並行轉換。每一個數據集也有一個叫做DataFrame的非類型化視圖，它是數據集的行．看到數據集和數據框架，創建數據集，創建DataFrames,DataFrame功能．

要了解如何在Databricks上使用Apache Spark api，請參見: