sparklyr
磚支持sparklyr在筆記本電腦,工作,和RStudio桌麵。
需求
磚分配的最新穩定版本sparklyr每次運行時版本。您可以使用sparklyr磚R的筆記本或內部RStudio服務器托管在磚通過導入sparklyr的安裝的版本。
在RStudio桌麵,磚連接允許你從本地機器連接sparklyr磚集群和運行Apache火花代碼。看到使用磚sparklyr和RStudio桌麵連接。
連接sparklyr磚集群
建立sparklyr連接,您可以使用“磚”
的連接方法spark_connect ()
。沒有額外的參數spark_connect ()
電話是必須的,也不是spark_install ()
需要,因為火花已經安裝在磚集群。
#調用spark_connect()首先需要加載sparklyr包。圖書館(sparklyr)#創建sparklyr連接。sc< -spark_connect(方法=“磚”)
進度條和火花與sparklyr UI
如果你將sparklyr連接對象分配給一個變量命名sc
在上麵的示例中,您將看到火花進度條在筆記本上每個命令後,觸發火花工作。另外,您可以點擊鏈接旁邊的進度條來查看火花UI與給定的火花相關工作。
使用sparklyr
安裝sparklyr和建立連接後,所有其他sparklyr API作為平時的水平。看到例如筆記本電腦的一些例子。
sparklyr通常使用以及其他tidyverse包如dplyr。大部分的這些包是預裝在磚,為了您的方便。您可以簡單地將它們導入並開始使用API。
sparklyr SparkR一起使用
SparkR和sparklyr可以一起使用一個筆記本或工作。可以導入SparkR sparklyr和使用它的功能。在磚筆記本,SparkR連接是預先配置的。
的一些功能SparkR dplyr麵具的功能:
>圖書館(SparkR)的後對象是戴麵具的從”包:dplyr”:安排,之間的,合並,收集,包含,數,cume_dist,dense_rank,desc,截然不同的,解釋,過濾器,第一個,group_by,相交,滯後,去年,鉛,變異,n,n_distinct,ntile,percent_rank,重命名,row_number,sample_frac,選擇,sql,總結,聯盟
如果你進口SparkR dplyr進口後,您可以參考函數dplyr通過使用完全限定的名稱,例如,dplyr:安排()
。同樣如果你進口dplyr SparkR後,函數SparkR由dplyr蒙麵。
或者,您可以選擇性地分離兩個包中的一個,而你不需要它。
分離(“包:dplyr”)
另請參閱比較SparkR和sparklyr。
使用sparklyr spark-submit工作
運行腳本,可以使用在磚sparklyr spark-submit工作,與小代碼修改。上麵的一些指令不適用於磚上使用sparklyr spark-submit工作。特別是,您必須提供火花主URLspark_connect
。例如:
圖書館(sparklyr)sc< -spark_connect(方法=“磚”,spark_home=“< spark-home-path >”)…
不支持的功能
磚不支持sparklyr方法等spark_web ()
和spark_log ()
需要一個本地瀏覽器。然而,由於火花UI是內置在磚上,您可以檢查容易引發就業和日誌。看到集群的司機和工人日誌。
示例筆記本:Sparklyr演示
附加的例子,請參閱在R DataFrames和表工作。