宣布磚起程拓殖集成實驗室在AWS和Azure
2020年9月11日 在工程的博客
我們很高興宣布為部署和管理數據磚環境集成在微軟Azure和亞馬遜網絡服務(AWS) HashiCorp起程拓殖。它是一個很受歡迎的開放源代碼工具用於創建安全、可預測的跨多個雲提供商的雲基礎設施。在這個版本中,我們的客戶可以管理整個磚工作區以beplay体育app下载地址及其他基礎設施的使用靈活,強大的工具。以前在公司博客上你可能讀過我們如何使用這個工具內部或如何分享共同之處構建塊的模塊。
越來越多的采用從最初的客戶基礎
幾個月前客戶對船員的磚實驗室聯手,開始製作磚起程拓殖的提供者。自一開始我們已經看到一個穩定的增長在許多不同的客戶使用這個集成。beplay体育app下载地址
整體資源使用來自雲
這個供應商的目的是支持所有磚在Azure和AWS api。這使得雲基礎設施工程師自動化最複雜的事情他們的數據和人工智能平台。Beplay体育安卓版本絕大多數的初始用戶組使用這個提供者建立集群和工作。beplay体育app下载地址客戶也在用它來提供工作區AWS和配置數據訪問。工作區設置資源通常隻用在開始部署設置以及虛擬網絡設置。
控製計算資源和貨幣支出
從計算的角度來看,提供者可以簡單的創建一個集群或者一個交互式分析工作生產工作負載運行保證安裝的庫。也是很簡單的創建和修改實例池可能保留的實例,這樣您的集群可以啟動x乘以更快,少花費你$ $ $。
管理的計算資源成本數據磚數據科學工作區是平台管理員最關心的問題。Beplay体育安卓版本大型組織,所有這些計算資源管理跨多個工作區有一些開銷。解決這些,提供者可以更容易地創建可伸縮的集群管理使用集群政策和Hashicorp配置語言(HCL)。
資源“databricks_cluster”“shared_autoscaling”{cluster_name =“共享自動定量”instance_pool_id = databricks_instance_pool.this。idspark_version =“6.6.x-scala2.11”autotermination_minutes =10
自動定量{min_workers =1max_workers =1000年}
圖書館{maven {坐標=“1.0.4 com.amazon.deequ: deequ:”}}
init_scripts {dbfs {目的地= databricks_dbfs_file.show_variables.path}}
custom_tags = {部門=“市場營銷”}}
控製數據訪問
從工作空間安全的角度來看,管理員可以配置不同組用戶有不同的訪問權限,甚至添加用戶。一般建議是讓起程拓殖管理組包括他們的工作空間和數據訪問權限,使得組成員管理與SSO身份提供商或SCIM撥備。
敏感數據的來源,應該創建一個秘密的範圍存儲在外部API憑證安全的方式。默認的秘密會被屏蔽的筆記本,還和一個可以管理訪問那些使用訪問控製列表。如果你已經在使用Hashicorp庫,AWS秘密的經理或Azure關鍵庫從那裏,你可以填充磚的秘密,讓他們對你的AI是可用的和先進的分析用例。如果你啟用了安全工作區,權限可以管理用戶或組的真理的單一來源訪問集群(和他們的政策),工作,實例池、筆記本電腦和其他磚對象。
資源“databricks_permissions”“格蘭特政策使用”{cluster_policy_id = databricks_cluster_policy.something_simple。idaccess_control {group_name = databricks_scim_group.datascience.display_namepermission_level =“CAN_USE”}}
從數據安全的角度來看,我們可以管理AWS EC2實例配置文件在一個工作區和分配這些有關組的用戶。這裏要注意的關鍵是,你可以定義所有這些跨平台組件(AWS &磚)在相同的語言和代碼庫起程拓殖管理複雜的依賴關係。Beplay体育安卓版本
/ /現在可以做“% fs ls / mnt /實驗”筆記本資源“databricks_s3_mount”“這”{instance_profile = databricks_instance_profile.ds.ids3_bucket_name = aws_s3_bucket。這.bucketmount_name =“實驗”}
集成也簡化了安裝工作空間內的對象存儲到“正常”文件係統存儲類型如下:
管理工作區
可以創建使用Azure磚工作區azurerm_databricks_workspace(這個資源是Azure的一部分提供者Hashicorp官方支持的)。beplay体育app下载地址客戶感興趣的配置設置符合企業治理政策可以用Azure磚遵循這個工作示例VNet注入。
與一般E2功能的可用性AWS的客戶,我們現beplay体育app下载地址在可以利用增強的安全特性和創建工作區在自己的vpc完全管理。beplay体育app下载地址用戶可以配置一個網絡資源定義子網和安全組內現有的VPC。然後可以創建一個cross-account作用這是一個注冊憑證資源授予磚相關權限的規定在VPC提供計算資源。一個存儲配置資源可以用來配置根鬥。
/ /創建工作區在給定VPC DBFS根鬥資源“databricks_mws_workspaces”“這”{提供者= databricks.mwsaccount_id =var.account_idworkspace_name =var.prefixdeployment_name =var.prefixaws_region =var.regioncredentials_id = databricks_mws_credentials。這.credentials_idstorage_configuration_id = databricks_mws_storage_configurations。這.storage_configuration_idnetwork_id = databricks_mws_networks。這.network_idverify_workspace_runnning =真正的}
請跟這個完整的例子用一個新的VPC和新工作區設置。請特別注意這一事實有兩種不同的實例—一個用於部署工作區(磚提供者主機=https://accounts.cloud.m.eheci.com/login),另一個用於管理數據磚對象內提供工作空間。如果你想管理提供工作空間以及集群內工作空間在同一個起程拓殖模塊(本質上相同的目錄中),你應該使用提供者起程拓殖的混疊特性。我們強烈建議在單獨的起程拓殖模塊配置的工作區包括生成初始拍牌,和管理資源在工作區中。這是由於這樣的事實:磚api的幾乎是相同的所有雲提供商但工作區創建可能特定於雲計算的。一旦創建了帕特牌工作區配置之後,可以使用在其他模塊提供相關對象在工作區中。
供應商質量和支持
供應商開發的一部分磚實驗室計劃和一個確定的問題跟蹤通過Github。把請求總是受歡迎的。代碼進行集成測試每一個版本和有顯著的單位代碼覆蓋率測試。目的也是為了確保每一個可能的磚資源和數據源定義記錄。
我們廣泛測試所有資源支持的雲供應商每次發布前通過一組集成測試。我們主要測試起程拓殖0.12,不過很快我們將切換到測試0.13。
接下來是什麼?
今後請繼續關注相關的博客文章。你也可以關注我們的網絡研討會討論如何的需求簡單,安全,和規模企業雲數據平台Beplay体育安卓版本在AWS & Azure磚一個自動化的方法。