Apache Spark API參考
Databricks構建在Apache Spark之上,Apache Spark是一個用於大數據和機器學習的統一分析引擎。有關更多信息,請參見Apache Spark -什麼是Spark在Databricks網站上。
Apache Spark為大型數據集提供了易於使用的api。這包括用於轉換數據的超過100個操作符的集合,以及用於操作半結構化數據的熟悉的數據幀api。這些api包括:
PySpark apiPython開發人員。看到PySpark入門.關鍵類包括:
SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到Spark Session接口而且起點:SparkSession.
DataFrame-分組為指定列的分布式數據集合。看到數據集和數據框架,創建DataFrames,DataFrame api,DataFrame功能.
SparkR api為R開發人員。看到SparkR (R on Spark)開發者指南.關鍵類包括:
SparkSession- SparkSession是SparkR的入口點。看到起點:SparkSession.
SparkDataFrame-分組為指定列的分布式數據集合。看到數據集和數據框架,創建DataFrames,創建SparkDataFrames.
Scala api.關鍵類包括:
SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到起點:SparkSession.
數據集-領域特定對象的強類型集合,可以使用函數或關係操作並行轉換。每一個
數據集
也有一個叫做DataFrame的非類型化視圖,它是數據集
的行.看到數據集和數據框架,創建數據集,創建DataFrames,DataFrame功能.
Java api.關鍵類包括:
SparkSession-使用Dataset和DataFrame API編程Spark的入口點。看到起點:SparkSession.
數據集-領域特定對象的強類型集合,可以使用函數或關係操作並行轉換。每一個
數據集
也有一個叫做DataFrame的非類型化視圖,它是數據集
的行.看到數據集和數據框架,創建數據集,創建DataFrames,DataFrame功能.
要了解如何在Databricks上使用Apache Spark api,請參見:
對於Java,可以將Java代碼作為JAR的工作.