Apache火花

Apache Sparkとは,ビッグデタと機械學習のための非常に高速な分散処理フレムワクです。これはもともと,2009年にカリフォルニア大學バクレ校で開発されました。

デタ処理で最大のオプンソスプロジェクト

ビッグデタ分析に最適なオプンソスの分散処理システムであるApache火花はそのリリス以來,さまざまな業種の企業に採用され,急速な拡大を遂げています。Netflix、雅虎、eBayなどのインターネット大手も,火花を大規模にデプロイし,8000を超えるノードのクラスターで,複數のペタバイトデータをまとめて処理しています。Apache火花は現在250を超える組織から1000名以上が參加する,ビッグデータの最大のオープンソースコミュニティへと急速に成長しています。
Apache sparkコミュニティのereplicationメereplicationジ

磚は,カリフォルニア大學バークレー校で火花の研究プロジェクトを開始したチームによって2013年に設立されました。

Apache火花は100%オープンソースで,ベンダーに依存しないApache軟件基金會によってホストされています。數據庫では,このオ,プンな開発モデルを維持することに全力で取り組んでいます。磚は Spark コミュニティと協力し、開発とコミュニティの活動の両方を通じて Apache Spark プロジェクトに大きく貢獻しています。


Apache Sparkエコシステム

Spark SQL + DataFrame

構造化されたデタ:Spark SQL

多くの數據科學家,アナリスト,一般的なビジネスインテリジェンスユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLは,構造化デタ処理のためのSparkモジュ。DataFramesと呼ばれるプログラミングの抽象化が可能で,分散型SQLクエリエンジンとしても機能します。これにより,既存のデプロイやデータで未修正のHadoop蜂巢クエリを最大100倍の速さで実行できるようになりました。また,他のSparkエコシステムと統合することも可能です。(例:SQLクエリ処理と機械學習の統合)

ストリミング

ストリミング分析:Sparkストリミング

多くのアプリケーションは,バッチデータだけでなく,新しいデータストリームをリアルタイムで処理し,分析する機能も必要とします。火花上で実行する流は火花,火花の使いやすさと耐障害性という特性を継承しつつ,ストリーミングデータと履歴データの両方にて,対話型の優れた分析アプリケーションを可能にします。またHDFS,水槽,卡夫卡,Twitterなど,一般的に使われているさまざまなデータソースと簡単に統合することも可能です。

MLlib機械學習

機械學習:MLlib

機械學習は,ビッグデータのマイニングにおいて実用的な洞察を得るための重要な機能として,急速に台頭してきました。火花上に構築されたMLlibは,高品質のアルゴリズム(精度を上げるための複數の反復など)と,超高速処理(MapReduceと比べて最大100倍の速度)の両方を提供するスケーラブルな機械學習ライブラリです。このライブラリは,火花アプリケーションの一部としてJava, Scala,およびPythonで使用可能であり,完全なワークフローに含めることができます。

GraphXグラフ計算

グラフ計算:GraphX

GraphXはSpark上に構築されたグラフ計算エンジンです。これによりユーザーは大きな規模にて,インタラクティブにグラフ構造データを構築,変更,および判斷することができます。GraphXは,共通アルゴリズムのラ電子書ブラリを備えています。

火花核心API

一般的な実行:Spark Core

Spark Coreは,Sparkプラットフォムの基盤となる一般的な実行エンジンです。その他の機能は全て,その上に構築されています。高速処理を実現するインメモリコンピューティング機能,さまざまなアプリケーションをサポートする一般化された実行モデル,および開発を容易にするJava, Scala,およびPython APIを提供します。

R
SQL
Python
Scala
Java

Apache Sparkとは何か- Hadoopに対するApache Sparkの優位性

スピド

ボトムアップでパフォーマンスを向上させるように設計された引發は,メモリコンピューティングやその他の最適化を活用することで,Hadoopの100倍の速度で大規模デタを処理できます。また,Sparkはデタがディスクに格納されている場合にも高速処理が可能です。現在,大規模なディスク上のソ。

使いやすさ

Sparkは大規模なデタセットを操作するための使いやすいAPIを備えています.使用實例これには,データを変換するための100以上の演算子と,半構造化データを操作するための使い慣れたデータフレームAPIが含まれています。

統合エンジン

火花は、SQLクエリ,ストリーミングデータ,機械學習,グラフ処理のサポートといった,高レベルのライブラリと一緒にパッケージ化されています。これらの標準ラ郵箱ブラリは開発者の生産性を向上させます。また,シムレスに組み合わせることで複雑なワクフロを作成することができます。

DatabricksクラウドでApache Sparkを無料でお試しください。

磚の統合分析プラットフォームは,分散処理システムの火花,対話型ノートブック,統合されたワークフロー,およびエンタープライズセキュリティについて,5倍のパフォーマンスを提供します。これらは全て,フルマネジド型のクラウドプラットフォムで実行されます。

Databricks無料トラアル

オプンソスのApache Sparkプロジェクトはこらからダウンロド可能です。

Baidu
map