PySpark

免費試著磚

PySpark是什麼?

Apache火花是用Scala編程語言寫的。PySpark已經發布為了支持Apache火花和Python的合作,它實際上是一個Python API的火花。此外,PySpark,幫助你的界麵彈性分布式數據集(抽樣)Apache火花和Python編程語言。這是通過利用Py4j圖書館。

PySpark標誌

Py4J PySpark內是一個受歡迎的圖書館集成,允許python與JVM動態接口對象。PySpark特性不少庫編寫高效的程序。此外,有各種各樣的外部庫,也兼容。這裏是其中一些:

PySparkSQL

PySpark庫應用sql的分析大量的結構化或半結構化的數據。我們也可以使用SQL查詢PySparkSQL。它也可以連接到Apache蜂巢。HiveQL也可以被應用。PySparkSQL PySpark核心是一個包裝器。PySparkSQL介紹了DataFrame,結構化數據的表格表示,類似於關係數據庫管理係統的一個表。

MLlib

MLlib PySpark包裝器,是引發的機器學習(ML)庫。這個圖書館使用數據並行技術來存儲和處理數據。提供的機器學習API MLlib庫也非常容易使用。MLlib支持許多機器學習算法的分類、回歸、聚類、協同過濾、降維,底層優化原語。beplay娱乐ios

GraphFrames

GraphFrames是目的圖形處理庫,它提供了一組api來執行圖分析有效,使用PySpark核心和PySparkSQL。是優化的快速的分布式計算。使用PySpark的優點:•Python是非常容易學習和實現。•它提供了簡單而全麵的API。•與Python代碼的可讀性,維護,熟悉要好得多。•它為數據可視化功能不同的選項,使用Scala或Java是困難的。

額外的資源

回到術語表
Baidu
map