Apache火花

apache spark是一個閃電快速統一分析引擎用於大數據和機器學習。它最初是在2009年由加州大學伯克利分校開發的。

數據處理領域最大的開源項目。

自發布以來,Apache火花,統一分析引擎,已經被眾多行業的企業迅速采用。Netflix、Yahoo和eBay等互聯網巨頭已經大規模部署了Spark,在超過8000個節點的集群上共同處理多個pb級的數據。它已經迅速成為大數據領域最大的開源社區,有來自250多個組織的1000多名貢獻者。
Spark - Apache Spark

在加州大學伯克利分校啟動Spark研究項目的團隊於2013年創建了Databricks。

Apache Spark是100%開源的,由獨立於供應商的Apache軟件基金會托管。在Databricks,我們完全致力於維護這種開放的開發模型。Databricks與Spark社區一起,通過開發和社區宣傳,繼續為Apache Spark項目做出巨大貢獻。


Apache引發生態係統

Spark SQL + DataFrame

結構化數據:Spark SQL

許多數據科學家,分析師和一般商業智能用戶依賴於探索數據的交互式SQL查詢。Spark SQL是用於結構化數據處理的火花模塊。它提供了一個名為DataFrame的編程抽象,也可以充當分布式SQL查詢引擎。它使未修改的Hadoop Hive查詢能夠在現有部署和數據上更快地運行100倍。它還提供與Spark Ecosystem的其餘部分的強大集成(例如,使用機器學習集成SQL查詢處理)。

流媒體

流式分析:Spark流式分析

許多應用程序需要能夠處理和分析批處理數據,還需要實時流動新數據。在火花頂上運行,Spark Streaming在流媒體和曆史數據中實現了強大的交互和分析應用,同時繼承了Spark的易用性和容錯特性。它很容易與各種流行的數據來源集成,包括HDFS,Flume,Kafka和Twitter。

mllib.機器學習

機器學習:MLlib

機器學習已經迅速成為挖掘大數據以獲得可操作見解的關鍵部分。MLlib是一個基於Spark的可擴展機器學習庫,提供高質量的算法(例如,多次迭代以提高精度)和驚人的速度(比MapReduce快100倍)。作為Spark應用程序的一部分,這個庫可以在Java、Scala和Python中使用,所以你可以將它包含在完整的工作流中。

GraphX圖計算

圖計算:GraphX

GraphX是一個建立在Spark之上的圖形計算引擎,使用戶能夠交互式地構建、轉換和推理大規模的圖形結構數據。它帶有一個通用算法庫。

火花核心API

一般執行:Spark Core

Spark Core是Spark平台的底層通用執行引擎,所有其他功能都建立在它的基礎之上。Beplay体育安卓版本它提供內存計算能力以提高速度,提供通用的執行模型以支持各種應用程序,以及Java、Scala和Python api以簡化開發。

R
SQL
Python
Scala.
Java

Apache Spark的優點是什麼

速度

Spark可以從性能的角度進行自下而上的設計在大規模數據處理方麵,比Hadoop快100倍通過利用內存計算和其他優化。當數據存儲在磁盤上時,Spark也非常快,目前保持著大規模磁盤上排序的世界記錄。

易用性

Spark提供了易於使用的api,用於操作大型數據集。這包括用於轉換數據的100多個操作符的集合,以及用於操作半結構化數據的熟悉數據幀api。

一個統一的引擎

Spark附帶了高級庫,包括對SQL查詢、流數據、機器學習和圖形處理的支持。這些標準庫提高了開發人員的工作效率,並且可以無縫地組合在一起創建複雜的工作流。

免費嚐試免費在Databricks雲上的Apache Spark

DataBricks統一分析平台提供5倍的性能,可在開源火花,協作Beplay体育安卓版本筆記本,集成工作流程和企業安全方麵提供5倍的性能 - 全部在一個完全托管的雲平台中。beplay娱乐ios

試著磚

開源的Apache Spark項目可以是在這裏下載

Baidu
map