Apache火花

Apache是一個閃電般的火花統一的分析引擎大數據和機器學習。它最初是2009年在加州大學伯克利分校的開發。

最大的開源項目數據處理。

自發布以來,Apache火花,統一分析引擎,快速采用跨廣泛的行業企業。Netflix等互聯網巨頭、雅虎和易趣在大規模部署的火花,共同處理多個pb的數據在超過8000個節點的集群上。它迅速成為最大的開源社區在大數據,超過1000貢獻者來自250 +組織。
火花——Apache火花

團隊開始的火花在加州大學伯克利分校的研究項目在2013年創立磚。

開放源碼Apache火花是100%,在獨立於供應商的Apache軟件基金會主辦。在磚,我們完全致力於維護這開放的發展模式。一起火花社區,磚繼續貢獻大量的Apache星火項目,通過發展和社區傳福音。


Apache引發生態係統

火花SQL + DataFrames

結構化數據:火花SQL

許多數據科學家,分析師和一般商業智能用戶依賴於交互式探索數據的SQL查詢。火花SQL是一種火花為結構化數據處理模塊。它提供了一個編程抽象叫DataFrames,也可以作為分布式SQL查詢引擎。它使修改的Hadoop蜂巢查詢跑到快100倍在現有部署和數據。它還提供了強大的集成與其它引發生態係統(例如,將SQL查詢處理與機器學習)。

流媒體

流分析:引發流

許多應用程序需要處理和分析不僅批處理數據的能力,但是也在實時流的新數據。運行上的火花,火花流使強大的互動在流媒體和曆史數據和分析應用程序,而繼承引發的易用性和容錯特性。它很容易與各種流行數據源的集成,包括HDFS,水槽,卡夫卡,和Twitter。

MLlib機器學習

機器學習:MLlib

機器學習已經迅速成為一個關鍵在挖掘大數據可行的見解。之上的火花,MLlib是一個可擴展的機器學習庫,提供高質量的算法(如多次迭代來提高精度)和燃燒的速度(比MapReduce快100倍)。圖書館是可用的Java, Scala和Python作為火花應用程序的一部分,這樣你就可以把它完整的工作流。

GraphX圖計算

圖計算:GraphX

GraphX圖表計算引擎之上的火花,使得用戶交互式地構建、變換和推斷圖大規模結構化數據。它配有一個圖書館常用的算法。

火花核心API

一般執行:引發的核心

火花核心是底層的總體執行引擎火花的平台,所有其他功能之上的。Beplay体育安卓版本它提供內存計算功能交付速度、廣義執行模型來支持各種各樣的應用程序,和Java, Scala, Python api易於開發。

R
SQL
Python
Scala
Java

Apache火花——Apache火花的好處是什麼

速度

自底向上的設計性能,火花100倍的速度比Hadoop進行大規模數據處理通過利用在內存中計算和其他優化。火花也快當數據是存儲在磁盤上,和目前擁有的世界紀錄大規模磁盤排序。

易用性

火花易於使用的api操作大型數據集。這包括超過100個運營商轉換數據的集合和熟悉的數據幀api操縱半結構化數據。

一個統一的引擎

火花一起打包的高級庫,包括支持SQL查詢,流媒體數據,機器學習和圖像處理。這些標準庫提高開發人員的生產力,可以無縫地結合創建複雜的工作流。

免費試穿Apache火花磚雲

磚統一分析平台提供了5 x的性能在開源的火花,協作筆記本,集成的工Beplay体育安卓版本作流,和企業安全——所有完全托管的雲平台。beplay娱乐ios

Prova磚

開放源碼Apache火花項目在這裏下載

Baidu
map