sparklyr

磚支持sparklyr在筆記本電腦,工作,和RStudio桌麵。

需求

磚分配的最新穩定版本sparklyr每次運行時版本。您可以使用sparklyr磚R的筆記本或內部RStudio服務器托管在磚通過導入sparklyr的安裝的版本。

在RStudio桌麵,磚連接允許你從本地機器連接sparklyr磚集群和運行Apache火花代碼。看到使用磚sparklyr和RStudio桌麵連接

連接sparklyr磚集群

建立sparklyr連接,您可以使用“磚”的連接方法spark_connect ()。沒有額外的參數spark_connect ()電話是必須的,也不是spark_install ()需要,因為火花已經安裝在磚集群。

#調用spark_connect()首先需要加載sparklyr包。圖書館(sparklyr)#創建sparklyr連接。sc< -spark_connect(方法=“磚”)

進度條和火花與sparklyr UI

如果你將sparklyr連接對象分配給一個變量命名sc在上麵的示例中,您將看到火花進度條在筆記本上每個命令後,觸發火花工作。另外,您可以點擊鏈接旁邊的進度條來查看火花UI與給定的火花相關工作。

Sparklyr進展

使用sparklyr

安裝sparklyr和建立連接後,所有其他sparklyr API作為平時的水平。看到例如筆記本電腦的一些例子。

sparklyr通常使用以及其他tidyverse包dplyr。大部分的這些包是預裝在磚,為了您的方便。您可以簡單地將它們導入並開始使用API。

sparklyr SparkR一起使用

SparkR和sparklyr可以一起使用一個筆記本或工作。可以導入SparkR sparklyr和使用它的功能。在磚筆記本,SparkR連接是預先配置的。

的一些功能SparkR dplyr麵具的功能:

>圖書館(SparkR)對象戴麵具的:dplyr:安排,之間的,合並,收集,包含,,cume_dist,dense_rank,desc,截然不同的,解釋,過濾器,第一個,group_by,相交,滯後,去年,,變異,n,n_distinct,ntile,percent_rank,重命名,row_number,sample_frac,選擇,sql,總結,聯盟

如果你進口SparkR dplyr進口後,您可以參考函數dplyr通過使用完全限定的名稱,例如,dplyr:安排()。同樣如果你進口dplyr SparkR後,函數SparkR由dplyr蒙麵。

或者,您可以選擇性地分離兩個包中的一個,而你不需要它。

分離(“包:dplyr”)

另請參閱比較SparkR和sparklyr

使用sparklyr spark-submit工作

運行腳本,可以使用在磚sparklyr spark-submit工作,與小代碼修改。上麵的一些指令不適用於磚上使用sparklyr spark-submit工作。特別是,您必須提供火花主URLspark_connect。例如:

圖書館(sparklyr)sc< -spark_connect(方法=“磚”,spark_home=“< spark-home-path >”)

不支持的功能

磚不支持sparklyr方法等spark_web ()spark_log ()需要一個本地瀏覽器。然而,由於火花UI是內置在磚上,您可以檢查容易引發就業和日誌。看到集群的司機和工人日誌

示例筆記本:Sparklyr演示

Sparklyr筆記本

在新標簽頁打開筆記本

附加的例子,請參閱在R DataFrames和表工作