磚為Scala開發人員

本文提供了一個指導發展的筆記本,在磚使用Scala語言的工作。第一部分為常見的工作流和任務提供教程的鏈接。第二部分提供了鏈接到api、圖書館和關鍵工具。

開始的基本工作流程是:

導入代碼和運行使用交互式數據磚筆記本:從文件中導入您自己的代碼或者Git回購或試一試下麵列出的教程。
一個集群上運行您的代碼:要麼創建一個自己的集群或者確保你有權限使用一個共享的集群。把你的筆記本集群和運行筆記本。

除此之外,可以拓展到更具體的主題:

教程

下麵的教程提供了示例代碼和筆記本學習常見的工作流。看到導入一個筆記本筆記本的例子說明導入到您的工作區。

教程:使用Apache Scala DataFrames火花
教程:三角洲湖Scala提供了例子。
Java和Scala快速入門幫助你學習跟蹤機器學習的基本知識培訓使用Scala中的MLflow運行。
使用XGBoost磚Scala提供了一個例子。

參考

以下部分列出關鍵特性和技巧來幫助你開始開發與Scala磚。

Scala API

這些鏈接提供一個介紹和參考Apache火花Scala API。

管理代碼與筆記本和磚回購

磚的筆記本Scala的支持。這些筆記本提供Jupyter的功能相似,但隨著添加如內置使用大數據可視化,Apache火花集成調試和性能監控、跟蹤和MLflow集成機器學習實驗。開始的導入一個筆記本。一旦你獲得一個集群,你可以附加一個筆記本集群和運行筆記本。

提示

完全重置你的筆記本的狀態,它可能是有用的重新啟動內核。對於Jupyter用戶來說,“重新啟動內核”選項在Jupyter對應分離和重新磚的筆記本。重新啟動內核筆記本,點擊計算選擇器在筆記本上附加工具欄和懸停在集群或SQL倉庫列表中顯示一個菜單。選擇分離和重新。這分離的筆記本從集群和再植,重啟的過程。

磚回購允許用戶同步筆記本和其他文件和Git存儲庫。磚回購有助於代碼版本控製和協作,它可以簡化代碼的完整存儲庫導入數據磚,查看過去的筆記本版本,與IDE集成開發。開始的克隆一個偏遠的Git存儲庫。您可以打開或創建筆記本存儲庫的克隆,把筆記本一個集群,運行筆記本。

集群和庫

磚集群為任何規模的集群提供了計算管理:從單節點集群到大型集群。您可以自定義集群硬件和庫根據您的需要。數據科學家通常開始工作創建一個集群或使用現有的共享的集群。一旦你獲得一個集群,你可以附加一個筆記本集群或運行工作在集群上。

對於小型工作負載,它隻需要單一節點,數據科學家可以使用單節點集群為節約成本。
詳細的提示,請參閱最佳實踐:集群配置
管理員可以設置集群政策為了簡化集群創造和引導。

磚集群使用磚運行時,它提供了開箱即用的許多流行的庫,包括Apache火花,三角洲湖等等。你也可以安裝其他第三方或自定義庫使用筆記本和工作。

從默認的圖書館磚運行時。預先安裝的庫的完整列表,請參閱磚的運行時版本。
你也可以Scala庫安裝在一個集群。
更多細節,請參閱庫。

可視化

磚Scala的筆記本已經為許多類型的內置支持可視化。您還可以使用遺留可視化:

互操作性

本節描述功能,支持Scala和SQL之間的互操作性。

工作

您可以自動化Scala如期工作負載或觸發工作在磚。工作可以運行筆記本和罐子。

通過UI有關創建工作的詳細信息,明白了創建一個工作。
的磚sdk允許您創建、編輯和刪除工作以編程方式。
的磚CLI提供了一個方便的命令行界麵自動化工作。

ide、開發工具和sdk

除了發展在磚筆記本的Scala代碼,您可以使用集成開發環境(ide)開發外部如IntelliJ IDEA。外部發展環境和磚之間同步工作,有幾個選項:

代碼:你可以使用Git同步代碼。看到Git與磚回購的集成。
庫和工作:您可以創建圖書館外部和上傳數據磚。這些庫可以在進口磚筆記本,或者他們可以用來創造就業機會。看到庫和創建和運行數據磚的工作。
遠程機器上執行:你可以從你當地的IDE運行代碼交互開發和測試。IDE可以在磚與磚執行大型的計算集群。例如,您可以使用IntelliJ IDEAdbx的磚實驗室或與磚連接。

磚的sdk提供了一組支持自動化和集成與外部工具。您可以使用磚sdk管理資源集群和圖書館、代碼和其他工作區對象,工作負載和工作等。看到磚sdk。

在ide的更多信息,開發工具,和sdk,看到開發工具和指導。

額外的資源

的磚學院提供自學和教師指導課程在許多話題。
知識庫