Apache火花

Apache這是blitzschnelle火花統一的分析引擎,麻省理工學院der死勞動麻省理工學院大數據和機器學習wesentlich erleichtert將。Das框架der引擎,2009一個加州大學伯克利分校entwickelt。

Das großte Open-Source-Projekt der Geschichte der Datenverarbeitung

Seit我Freigabe帽子模具統一的分析引擎Apache的火花,在Unternehmen Einzug der unterschiedlichsten Branchen gehalten。Online-Riesen,是不是Netflix,雅虎和易趣,有火花massivem Umfang bereitgestellt。Gemeinschaftlich您bereits mehrere拍字節一個Daten auf Clustern麻省理工學院mehr als 8.000 Knoten verarbeitet。拉希絕不das Projekt蘇珥großten開源社區im大Data-Bereich entwickelt -麻省理工學院超級1.000 aktiv beitragenden Entwicklern來自mehr als 250 Unternehmen Organisationen。
火花——Apache火花

Dasselbe團隊,dass das Forschungsprojekt ursprunglich ins酸奶gerufen想,grundete 2013磚。

Apache火花是祖茂堂100 Prozent開源。Gehostet將es貝der anbieterunabhangigen Apache軟件基金會。磚setzt西奇毛死Aufrechterhaltung這本offenen Entwicklungsmodells靜脈。歐什Gemeinsam麻省理工學院der Spark-Community leistet磚對此weiterhin杯großen Beitrag zum Apache Spark-Projekt。


Das Okosystem馮Apache火花

火花SQL + DataFrames

Strukturierte Daten:火花SQL

數據科學家,數據分析師和打工天天geschaftlicher Daten你西奇毛皮Datenuntersuchungen auf interaktive SQL-Abfragen。火花SQL是靜脈Spark-Modul蘇珥Verarbeitung馮strukturierten Daten。Es bietet一張Abstraktion在der Programmierung以DataFrames和螢石也是als verteilte SQL-Abfrage-Engine verwendet了。所以您能unveranderte Hadoop Hive-Abfragen auf vorhandenen Bereitstellungen和Daten bis祖茂堂100 - mal schneller ausgefuhrt了。Außerdem堅持您的腸道在das ubrige Spark-Okosystem integriert(所以螢石您死在機器學習integrieren Verarbeitung馮SQL-Abfragen)。

流媒體

Streaming-Analysen:火花流

有Anwendungen得不努爾Batch-Daten verarbeiten和analysieren能幫,sondern歐什Streaming-Daten Echtzeit。火花流lauft火花和汪汪汪ermoglicht leistungsstarke interaktive和analytische Anwendungen, sowohl毛皮Streaming-Daten als歐什毛皮historische Daten。Dabei了死anwenderfreundlichen和fehlertoleranten Eigenschaften馮beibehalten火花。死Losung lasst西奇•萊克特說在一張Vielzahl馮beliebten Datenquellen integrieren,她HDFS,水槽,卡夫卡奧得河Twitter。

MLlib機器學習

機器學習:MLlib

機器學習是靜脈entscheidender Faktor貝der Nutzbarmachung馮大數據蘇珥Erzeugung prozessfahiger Erkenntnisse。MLlib basiert火花和汪汪汪這skalierbare機器Learning-Bibliothek死neben qualitativ hochwertigen Algorithmen(例如mehrere Durchlaufe,嗯一張hohere Genauigkeit祖茂堂erzielen)歐什一張erhebliche Geschwindigkeit bietet (bis祖茂堂100 - mal schneller als MapReduce)。死位於螢石在Java中,Scala和Python als菩提樹馮Spark-Anwendungen genutzt了,汽水您在komplette工作流eingefugt了螢石。

GraphXDiagramm-berechnung

Diagrammberechnung: GraphX

GraphX這蘇珥Diagrammberechnung Spark-basierte引擎,死古老Anwendern死Moglichkeit bietet, interaktiv strukturierte Diagrammdaten在großem Umfang祖erstellen umzuwandeln auszuwerten。死引擎enthalt一張位於麻省理工學院haufig verwendeten Algorithmen。

火花核心api

《Ausfuhrung:火花的核心

火花的核心是死der Spark-Plattform zugrunde liegende引擎,汪汪汪der阿萊anderen Funktionen aufbauen。死引擎bietet In-Memory-Berechnungsmoglichkeiten毛皮Geschwindigkeit、靜脈《Ausfuhrungsmodell蘇珥Unterstutzung靜脈Vielzahl unterschiedlicher Anwendungen,和Java, Scala -,和python api嗯死Entwicklung祖茂堂vereinfachen。

R
SQL
Python
Scala
Java

Apache火花是什麼?——Vorteile馮Apache火花

Geschwindigkeit

火花,entwickelt,一張moglichst祝gewahrleisten祖茂堂可以在性能。Selbst riesige Datenmengen能幫麻省理工學院der引擎100 - mal schneller verarbeitet了,als麻省理工學院Hadoop。水平sorgen In-Memory-Berechnungen和weitere Optimierungen。火花是歐什施耐爾,要是死Daten auf Festplatten gespeichert了。Derzeit停止es窩Weltrekord im Sortieren馮umfangreichen Festplatten Datenmengen再見。

Anwenderfreundlichkeit

火花besitzt anwenderfreundliche api毛穴Betrieb umfangreicher Datenmengen。Hierzu zahlt歐什一張Sammlung來自超級100 Operatoren毛皮死Umwandlung馮Daten和bekannten數據Frame-APIs蘇珥Bearbeitung馮semi-strukturierten Daten。

明信片einheitliche引擎

火花將麻省理工學院十分hoherrangigen Bibliotheken geliefert darunter支持皮毛SQL-Abfragen, Streaming-Daten,機器學習和Diagrammverarbeitung。這張Standardbibliotheken steigern死Produktivitat der Entwickler和能幫nahtlos kombiniert了,嗯祖茂堂erstellen komplexe工作流。

Testen您Apache der Databricks-Cloud kostenlos火花

死磚統一Analytics-Plattform bietet死5-fache性能der開放Source-Variante馮火花,gemeinschaftlich nutzbare筆記本,integrierte工作流和Sicherheit Enterprise-Niveau汪汪汪,死後一切,再見,靜脈vollstandig verwalteten Cloud-Plattform。

磚testen

Das開源apache Spark-Projekt螢石海爾heruntergeladen

Baidu
map