RStudio磚上

您可以使用RStudio流行的集成開發環境(IDE), R,連接到磚磚工作空間內計算資源。使用RStudio桌麵連接到數據磚集群或者一個SQL倉庫從你當地的開發機器上。您還可以使用web瀏覽器登陸你的磚工作區,然後連接到集群的磚RStudio服務器安裝,在工作區中。

連接使用RStudio桌麵

使用RStudio桌麵連接到遠程數據磚集群或SQL倉庫從您的本地開發機器。連接在這個場景中,使用ODBC連接和調用ODBC包裝函數R,在本節中所述。

請注意

如您不能使用包SparkRsparklyr在這個RStudio桌麵場景中,除非你也使用磚連接。作為一種替代方法使用RStudio桌麵,您可以使用web瀏覽器登錄磚工作區,然後連接到一個集群,磚RStudio服務器安裝在該工作區。

建立RStudio桌麵在本地開發機:

  1. 下載並安裝R 3.3.0或更高

  2. 下載並安裝RStudio桌麵

  3. 開始RStudio桌麵。

創建一個RStudio項目(可選):

  1. 開始RStudio桌麵。

  2. 點擊文件>新建項目

  3. 選擇新目錄>的新項目

  4. 為項目選擇一個新的目錄,然後單擊創建項目

創建一個R腳本:

  1. 與項目打開,點擊文件文件>新建> R腳本

  2. 點擊文件>另存為

  3. 名字的文件,然後單擊保存

連接到遠程數據磚集群或SQL通過ODBC R倉庫:

  1. 得到了服務器主機名,港口,HTTP路徑值你遠程集群SQL倉庫。在集群中,這些值JDBC / ODBC選項卡的高級選項。對於SQL倉庫,這些值連接細節選項卡。

  2. 得到一個磚個人訪問令牌

    請注意

    作為一個安全最佳實踐進行身份驗證時使用自動化工具,係統、腳本和應用程序,磚建議您使用OAuth令牌或個人訪問令牌屬於服務主體而不是用戶工作區。為服務主體,創建令牌服務主體的管理令牌

  3. 的磚ODBC驅動程序的安裝和配置窗戶,macOS,或Linux基於你的本地機器上的操作係統。

  4. 建立一個ODBC數據源名稱(DSN)遠程集群或SQL倉庫窗戶,macOS,或Linux基於你的本地機器上的操作係統。

  5. 從RStudio控製台(視圖>焦點轉移到控製台),安裝odbcDBI包從凹口:

    需要(devtools)install_version(=“odbc”,回購=“http://cran.us.r-project.org”)install_version(=“DBI”,回購=“http://cran.us.r-project.org”)
  6. 回到你的R腳本(>焦點轉移到源視圖),加載安裝odbcDBI包:

    圖書館(odbc)圖書館(DBI)
  7. 調用ODBC的版本dbConnect功能DBI計劃,指定odbc司機在odbc包以及創建ODBC DSN,例如,一個ODBC DSN

    康涅狄格州=dbConnect(drv=odbc(),dsn=“磚”)
  8. 通過ODBC DSN調用一個操作,例如選擇聲明中通過dbGetQuery功能DBI計劃,指定的名稱和連接變量選擇語句本身,例如從表命名鑽石在一個模式(數據庫)命名默認的:

    打印(dbGetQuery(康涅狄格州,“SELECT *從違約。鑽石限製2”))

完整的R腳本如下:

圖書館(odbc)圖書館(DBI)康涅狄格州=dbConnect(drv=odbc(),dsn=“磚”)打印(dbGetQuery(康涅狄格州,“SELECT *從違約。鑽石限製2”))

要運行此腳本,在源視圖中,單擊。前麵的R腳本的結果如下:

_c0克拉切顏色清晰深度表0.23 x y z 1 1價格理想E SI2溢價61.5 55 326 0.21 3.95 3.98 2.43 - 2 2 61 326 3.89 3.84 2.31 59.8 E SI1

連接使用RStudio服務器

使用web瀏覽器登錄到磚工作區,然後連接到一個集群,磚RStudio服務器安裝,在工作區中。

請注意

作為替代RStudio服務器,您可以使用RStudio桌麵連接到集群磚或SQL倉庫從您的本地開發機器通過ODBC連接,並調用ODBC包裝函數r .如您不能使用包SparkRsparklyr在RStudio桌麵場景中,除非你也使用磚連接

RStudio服務器,您可以使用開源版或RStudio工作台(以前RStudio服務器Pro)版磚。如果你想使用RStudio工作台/ RStudio服務器Pro,你必須轉移現有RStudio工作台/ RStudio服務器Pro磚(見許可證開始:RStudio工作台)。

磚建議您使用磚運行時對機器學習(磚運行時的ML)磚與RStudio服務器集群,集群,以減少啟動時間。磚RStudio服務器的運行時毫升包含一個修改的版本的開源版本包的源代碼中可以找到GitHub。下表列出了版本的RStudio服務器開源版目前預裝磚運行時的ML版本。

磚ML版本的運行時

RStudio服務器版本

磚運行時7.3 LTS毫升

1.2

磚運行時9.1 LTS毫升和10.4 LTS毫升

1.4

RStudio集成體係結構

當你使用RStudio服務器數據磚,RStudio服務器守護進程運行在司機磚集群的節點。RStudio web UI是通過磚webapp的代理,這意味著您不需要做任何修改,您的集群網絡配置。這個圖展示了RStudio集成組件體係結構。

架構RStudio磚

警告

磚代理RStudio web服務端口8787在集群上的火花司機。這個web代理隻有RStudio時使用。如果你在端口8787上啟動其他web服務,您可能會讓用戶潛在的安全漏洞。磚不負責任何問題而導致的集群上不受支持的軟件的安裝。

需求

  • 集群的集群必須是通用的。

  • 你必須有可以連接到許可的集群。集群管理員可以給予你們這個許可。看到集群訪問控製

  • 集群不得訪問控製表,自動終止,或憑據透傳啟用。

  • 集群不得使用共享訪問模式

  • 集群不得有火花的配置spark.databricks.pyspark.enableProcessIsolation設置為真正的

  • 你必須有一個RStudio服務器浮動Pro使用專業版的許可證。

開始:RStudio服務器操作係統版本

重要的

如果您使用的是磚運行時7.0毫升以上,RStudio服務器開放源碼版本已經安裝。您可以跳過部分安裝RStudio服務器並跳到使用RStudio服務器開源版本

開始與RStudio服務器開源版磚,磚上必須安裝RStudio集群。隻需要執行這個安裝一次。安裝通常是由管理員來執行的。

請注意

你不能訪問RStudio服務器集群上使用開源版本共享訪問模式連接統一目錄。關於集群訪問模式的更多信息,請參閱集群訪問模式是什麼?

安裝RStudio服務器開源版本

安裝RStudio服務器開源版使用磚的磚集群運行時6.6毫升或以下,您必須創建一個init腳本安裝RStudio服務器開源版二進製包。有關更多信息,請參見集群級init腳本。這裏有一個例子筆記本電池DBFS上安裝一個init腳本在一個位置。

重要的

  • 所有的用戶都擁有DBFS讀和寫訪問,所以init腳本可以被任何用戶修改。如果這是一個潛在的問題,磚在Amazon S3上建議你把init腳本和限製權限。

  • 您可能需要修改URL包取決於你的Ubuntu版本運行時,你可以找到的發布說明

腳本=" " # ! / bin / bash設置-euxo pipefailRSTUDIO_BIN = " / usr / sbin / rstudio-server "如果[[!- f " $ RSTUDIO_BIN " & & $ DB_IS_DRIVER = " TRUE "]];然後apt-get更新apt-get安裝- y gdebi-corecd / tmp#你可以在https://rstudio.com/products/rstudio/download-server/debian-ubuntu/找到新版本。wget https://download2.rstudio.org/server/bionic/amd64/rstudio服務器2022.02.1 - 461 amd64.deb - o rstudio-server.debsudo gdebi - n rstudio-server.debrstudio-server重啟| |真的fi”“”dbutilsfsmkdir(“磚/ rstudio”)dbutilsfs(“磚/ rstudio / rstudio-install.sh”,腳本,真正的)
  1. 一個筆記本安裝腳本中運行代碼dbfs: /磚/ rstudio / rstudio-install.sh

  2. 在集群啟動之前,添加dbfs: /磚/ rstudio / rstudio-install.sh作為一個init腳本。看到集群級init腳本獲取詳細信息。

  3. 啟動集群。

使用RStudio服務器開源版本

  1. 顯示的細節RStudio的集群服務器開放源碼安裝,然後單擊應用程序標簽:

    集群應用程序選項卡
  2. 應用程序選項卡上,單擊設置RStudio按鈕。這為您生成一次性密碼。單擊顯示鏈接顯示它並複製密碼。

    RStudio一次性密碼
  3. 單擊打開RStudio在新選項卡中打開UI的鏈接。輸入您的用戶名和密碼在登錄表單和登錄。

    RStudio登錄表單
  4. 從RStudio UI中,您可以導入SparkR包和設置SparkR會話啟動火花工作在你的集群。

    圖書館(SparkR)sparkR.session()#查詢的第一個兩行表命名為“鑽石”#模式(數據庫)命名為“默認”並顯示查詢結果。df< -SparkR::sql(“SELECT *從違約。鑽石限製2”)showDF(df)
    RStudio開源版會話
  5. 你也可以附加sparklyr包和建立一個火花連接。

    圖書館(sparklyr)sc< -spark_connect(方法=“磚”)#查詢一個表命名為“鑽石”和顯示前兩行。df< -spark_read_table(sc=sc,的名字=“鑽石”)打印(x=df,n=2)
    RStudio開源版sparklyr連接

開始:RStudio工作台

本節將向您展示如何設置和開始使用RStudio工作台(以前RStudio服務器Pro)磚集群。看到一個FAQ名稱更改。根據您的許可,RStudio工作台可能包括RStudio服務器支持。

設置RStudio許可服務器

使用RStudio工作台在磚上,你需要把你的職業許可證浮點許可。尋求幫助,請聯係幫助@rstudiocom。當你的執照轉換,您必須設置一個許可證服務器RStudio工作台。

建立一個許可證服務器:

  1. 啟動一個小實例雲提供商網絡;許可證服務器守護進程是非常輕量級的。

  2. 下載並安裝相應版本的RStudio許可證服務器實例,並啟動服務。有關詳細說明,請參見RStudio工作台管理指南

  3. 確保許可服務器的端口是打開的磚實例。

安裝RStudio工作台

建立RStudio工作台磚集群,您必須創建一個init腳本安裝RStudio工作台二進製包和配置許可租賃使用您的許可證服務器。看到使用集群級init腳本為更多的細節。

請注意

如果你打算RStudio工作台安裝在一個磚已經包括RStudio服務器運行時版本的開源版本包,首先需要卸載,包安裝成功。

下麵是一個例子在DBFS筆記本細胞生成一個init腳本。腳本執行額外的身份驗證配置,簡化與磚的集成。

重要的

  • 所有的用戶都擁有DBFS讀和寫訪問,所以init腳本可以被任何用戶修改。如果這是一個潛在的問題,磚在S3和建議你把init腳本限製權限。

  • 您可能需要修改URL包取決於你的Ubuntu版本運行時,你可以找到的發布說明

腳本=" " # ! / bin / bash設置-euxo pipefail如果[[$ DB_IS_DRIVER = " TRUE "]];然後sudo apt-get更新sudo dpkg -清除rstudio-server #以防開源版本安裝。sudo apt-get安裝- y gdebi-core外星人# #安裝RStudio工作台cd / tmp#你可以在https://rstudio.com/products/rstudio/download-commercial/debian-ubuntu/找到新版本。wget https://download2.rstudio.org/server/bionic/amd64/rstudio -工作台2022.02.1 - 461. - pro1 amd64.deb - o rstudio-workbench.debsudo gdebi - n rstudio-workbench.deb# #配置身份驗證sudo回聲> > /etc/rstudio/rserver.conf auth-proxy = 1sudo echo ' auth-proxy-user-header-rewrite = ^ (. *) $ $ 1 ' > > /etc/rstudio/rserver.confsudo echo ' auth-proxy-sign-in-url = <域> /登錄。> > /etc/rstudio/rserver.conf html”sudo回聲> > /etc/rstudio/rserver.conf admin-enabled = 1sudo回聲的出口路徑= / usr /地方/ sbin: / usr /地方/ bin: / usr / sbin: / usr / bin: / sbin: / bin ' > > /etc/rstudio/rsession-profile#支持浮點許可sudo回聲> > /etc/rstudio/rserver.conf server-license-type =遠程#會話配置sudo回聲> > /etc/rstudio/rsession.conf session-rprofile-on-resume-default = 1sudo回聲> > /etc/rstudio/rsession.conf allow-terminal-websockets = 0sudo rstudio-server許可證管理器許可證服務器< license-server-url >sudo rstudio-server重啟| |真的fi”“”dbutilsfsmkdir(“磚/ rstudio”)dbutilsfs(“磚/ rstudio / rstudio-install.sh”,腳本,真正的)
  1. 取代<域>與你的磚和URL< license-server-url >浮點許可服務器的URL。

  2. 一個筆記本安裝腳本中運行代碼dbfs: /磚/ rstudio / rstudio-install.sh

  3. 之前啟動一個集群添加dbfs: /磚/ rstudio / rstudio-install.sh作為一個init腳本。看到使用集群級init腳本獲取詳細信息。

  4. 啟動集群。

使用RStudio服務器支持

  1. 顯示集群上的細節RStudio並單擊安裝應用程序標簽:

    集群應用程序選項卡
  2. 在應用程序選項卡中,單擊設置RStudio按鈕。

    RStudio一次性密碼
  3. 你不需要一次性密碼。單擊打開RStudio UI鏈接,它會為你打開一個驗證RStudio Pro會話。

  4. 從RStudio UI,您可以附加SparkR包和設置SparkR會話啟動火花工作在你的集群。

    圖書館(SparkR)sparkR.session()#查詢的第一個兩行表命名為“鑽石”#模式(數據庫)命名為“默認”並顯示查詢結果。df< -SparkR::sql(“SELECT *從違約。鑽石限製2”)showDF(df)
    RStudio Pro會話
  5. 你也可以附加sparklyr包和建立一個火花連接。

    圖書館(sparklyr)sc< -spark_connect(方法=“磚”)#查詢一個表命名為“鑽石”和顯示前兩行。df< -spark_read_table(sc=sc,的名字=“鑽石”)打印(x=df,n=2)
    RStudio Pro sparklyr連接

RStudio服務器常見問題解答

RStudio服務器之間的區別是什麼開源版和RStudio工作台嗎?

RStudio工作台支持廣泛的企業特性所不能提供的開源版本。你可以看到特征比較RStudio的網站

此外,RStudio服務器分布在開源版本GNU Affero通用公共許可證(AGPL),而專業版有一個商業組織不能使用AGPL許可證的軟件。

最後,RStudio工作台與專業和企業支持來自RStudio,中國人民銀行,而RStudio服務器開放源碼版本不支持。

我能使用RStudio工作台/ RStudio服務器專業執照磚嗎?

是的,如果你已經有了一個專業或企業RStudio許可證服務器,您可以使用許可磚。看到開始:RStudio工作台學習如何設置在磚RStudio工作台。

RStudio服務器運行在哪裏?我需要管理其他服務/服務器嗎?

正如你所看到的圖RStudio集成體係結構,RStudio服務器守護進程運行在磚的司機(主)節點集群。與RStudio服務器開放源代碼版本,您不需要任何額外的服務器/服務運行。然而,對於RStudio工作台,你必須管理一個單獨的實例運行RStudio許可服務器。

我可以用RStudio服務器集群的標準嗎?

請注意

本文描述了傳統集群UI。信息關於新集群的UI(預覽),包括術語集群訪問模式的變化,看到創建一個集群。比較新和遺留的集群類型,明白了集群UI變化和集群訪問模式

是的,你可以。

我可以用RStudio和自動終止服務器集群上嗎?

不,你不能用RStudio啟用自動終止時。自動終止可以清除未保存的用戶腳本和數據在一個RStudio會話。保護用戶免受這意想不到的數據丟失的情況下,RStudio在這樣集群在缺省情況下是禁用的。

為客戶誰beplay体育app下载地址需要清理集群資源不習慣時,磚推薦使用集群api清理RStudio集群基於一個時間表。

我該如何堅持我的工作RStudio嗎?

我們強烈建議你堅持你的工作從RStudio使用版本控製係統。RStudio非常支持各種版本控製係統和允許您檢查和管理你的項目。如果你不堅持你的代碼通過下列方法之一,你有可能失去你的工作,如果一個工作區管理重新啟動或終止集群。

一個方法是保存您的文件(代碼和數據)磚文件係統(DBFS)是什麼?。例如,如果您在保存一個文件/ dbfs /不會被刪除的文件當你集群終止或重新啟動。

另一種方法是將R筆記本保存到您的本地文件係統通過出口Rmarkdown,然後將文件導入到RStudio實例。這個博客共享使用RMarkdown R筆記本更詳細地描述這些步驟。

另一種方法是安裝一個Amazon Elastic文件係統(Amazon EFS)卷你的集群,這樣當集群關閉你不會失去你的工作。當集群重啟,磚重新安裝亞馬遜EFS體積,你可以繼續你離開的地方。山現有亞馬遜EFS卷到一個集群,調用創建集群(帖子. . / api / 2.0 /集群/創建)或編輯集群(帖子. . / api / 2.0 /集群/編輯在集群API 2.0)操作,指定亞馬遜EFS卷掛載信息操作的cluster_mount_infos數組中。

確保你創建或使用的集群沒有統一目錄,自動終止,或自動伸縮功能啟用。也確保集群安裝體積有寫訪問權限,例如通過運行命令修改文件權限+ w< /道路/ /卷>在集群上。你可以在現有運行這個命令通過集群的集群網絡終端,或者通過使用一個新的集群init腳本你指定在前麵操作的init_scripts數組中。

如果你沒有一個現有的亞馬遜EFS體積,你可以創建一個。首先,請聯係磚管理員和VPC ID,公共子網ID,磚的工作空間和安全組ID。然後使用這些信息,以及AWS管理控製台創建一個文件係統使用亞馬遜EFS控製台使用自定義設置。在這個過程的最後一步,單擊附加和複製的DNS名稱和掛載選項,指定在前麵cluster_mount_infos數組中。

我如何開始SparkR會話嗎?

SparkR包含在磚運行時,但你必須裝入RStudio。運行下麵的代碼在RStudio來初始化一個SparkR會話。

圖書館(SparkR)sparkR.session()

如果有一個錯誤導入SparkR包,運行.libPaths (),並驗證/home/ubuntu/databricks/spark/R/lib包含在結果中。

如果不包括,檢查的內容/usr/lib/R/etc/Rprofile.site。列表/home/ubuntu/databricks/spark/R/lib/SparkR驅動程序來驗證SparkR包安裝。

我如何開始sparklyr會話嗎?

sparklyr包必須安裝在集群上。使用下列方法之一的安裝sparklyr包:

  • 圖書館作為一個磚

  • install.packages ()命令

  • RStudio包管理界麵

圖書館(sparklyr)sc< -spark_connect(方法=)

如何RStudio集成磚R筆記本?

你可以移動你的工作筆記本和RStudio之間通過版本控製。

工作目錄是什麼?

在RStudio當你開始一個項目,你選擇一個工作目錄。默認這是主目錄的司機(主)容器RStudio服務器正在運行。如果你希望你可以改變這個目錄。

我可以從RStudio發射閃亮的應用程序運行在磚嗎?

是的,你可以開發和視圖閃亮的磚上RStudio內部應用程序服務器

我不能使用終端或git在RStudio磚。我怎樣才能解決這個問題呢?

確保你有殘疾的websockets。在RStudio服務器開源版,你可以從UI。

RStudio會話

在RStudio服務器支持,您可以添加allow-terminal-websockets = 0/etc/rstudio/rsession.conf禁用websockets為所有用戶。

我看不出應用程序選項卡下集群的細節。

這個特性是不提供給所有客戶。beplay体育app下载地址你必須在保費計劃或以上