Apache火花API參考
磚是建立在Apache的火花,一個統一的大數據分析引擎和機器學習。有關更多信息,請參見Apache火花在磚。
Apache火花DataFrame api操作大型數據集,其中包括超過100個運營商。有關更多信息,請參見磚PySpark API參考。
PySpark api對於Python開發人員。看到教程:使用PySpark DataFrames磚。主要課程包括:
SparkSession-入口點和數據集和DataFrame API編程火花。
DataFrame——一個分布式數據分為命名列的集合。看到DataFrames和DataFrame-based MLlib。
SparkR概述開發人員為R。主要課程包括:
SparkSession——SparkSession SparkR入口。看到起點:SparkSession。
SparkDataFrame——一個分布式數據分為命名列的集合。看到數據集和DataFrames,創建DataFrames,創建SparkDataFrames。
Scala api。主要課程包括:
SparkSession-入口點和數據集和DataFrame API編程火花。看到起點:SparkSession。
數據集——一個強類型集合的特定於域的對象可以使用功能或關係轉變為並行操作。每一個
數據集
也有一個無類型的視圖稱為DataFrame,這是一個數據集
的行。看到數據集和DataFrames,創建數據集,創建DataFrames,DataFrame功能。
Java api。主要課程包括:
SparkSession-入口點和數據集和DataFrame API編程火花。看到起點:SparkSession。
數據集——一個強類型集合的特定於域的對象可以使用功能或關係轉變為並行操作。每一個
數據集
也有一個無類型的視圖稱為DataFrame,這是一個數據集
的行。看到數據集和DataFrames,創建數據集,創建DataFrames,DataFrame功能。
學習如何使用Apache火花api在磚上,見:
對於Java,您可以運行作為一個Java代碼JAR的工作。