單節點集群
請注意
本文描述了傳統集群UI。信息關於新集群的UI(預覽),包括術語集群訪問模式的變化,看到創建一個集群。比較新和遺留的集群類型,明白了集群UI變化和集群訪問模式。
單個節點集群是集群組成的一個Apache火花司機和工人無火花。單個節點的集群支持所有火花引發就業和數據源,包括三角洲湖。標準集群至少需要一個運行火花引發工人工作。
單節點集群有利於:
單節點機器學習工作負載,使用火花來加載和存儲數據
輕量級的探索性數據分析
創建一個單獨的節點集群
創建一個節點集群,選擇單獨的節點按鈕,當你配置一個集群。
單節點集群屬性
單個節點集群具有以下屬性:
在本地運行的火花。
司機作為主人和工人,沒有工人的節點。
產生一個執行人線程/邏輯集群中的核心,- 1為驅動核心。
所有
stderr
,stdout
,log4j
日誌輸出保存在司機日誌。單個節點集群不能轉化為一個多節點集群。
限製
大規模數據處理集群將排在單個節點上的資源。對於這些工作負載,磚建議使用一個多節點集群。
單節點集群不是共享而設計的。為了避免資源衝突,磚建議使用一個多節點集群,集群必須共享。
一個多節點集群不能放大到0的工人。使用單個節點集群。
單節點集群不兼容處理隔離。
GPU調度不是單一節點上啟用集群。
在單節點集群,火花不能讀取鋪文件UDT列。以下錯誤消息的結果:
意外引發司機已經停止並重新啟動。你的筆記本將會自動重新連接。
為了解決這個問題,禁用本地拚花讀者:
火花。相依。集(“spark.databricks.io.parquet.nativeReader.enabled”,假)
REST API
你可以使用集群API創建一個單獨的節點集群。
單節點集群政策
集群政策簡化為單節點集群配置集群。
考慮的例子數據科學團隊成員沒有權限創建集群。工作區管理可以創建一個集群政策授權團隊成員創建一個單獨的節點集群的最大數量,使用池和集群政策:
創建一個遊泳池:
集最大容量來
10
。在自動駕駛儀的選擇,使自動定量支持本地存儲。
集實例類型來單節點集群。
選擇一個磚版本。磚建議使用最新版本,如果可能的話。
點擊創建。
池的屬性頁麵出現。記下池ID和實例的ID類型頁麵創建池。
創建一個集群政策:
設置ID和實例池類型從池中ID屬性從池中。
指定約束根據需要。
給予團隊成員的集群政策。您可以使用管理用戶、服務主體和組織簡化用戶管理。
{“spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定”,“價值”:“singleNode”,“隱藏”:真正的},“instance_pool_id”:{“類型”:“固定”,“價值”:“singleNodePoolId1”,“隱藏”:真正的},“spark_version”:{“類型”:“固定”,“價值”:“11.3.x-scala2.12”,“隱藏”:真正的},“autotermination_minutes”:{“類型”:“固定”,“價值”:120年,“隱藏”:真正的},“num_workers”:{“類型”:“固定”,“價值”:0,“隱藏”:真正的},“docker_image.url”:{“類型”:“禁止”,“隱藏”:真正的}}
單節點集群政策的工作
建立一個集群政策工作,您可以定義一個類似的集群政策。設置cluster_type.type
來固定
和cluster_type.value
來工作
。刪除所有的引用auto_termination_minutes
。
{“cluster_type”:{“類型”:“固定”,“價值”:“工作”},“spark_conf.spark.databricks.cluster.profile”:{“類型”:“固定”,“價值”:“singleNode”,“隱藏”:真正的},“instance_pool_id”:{“類型”:“固定”,“價值”:“singleNodePoolId1”,“隱藏”:真正的},“num_workers”:{“類型”:“固定”,“價值”:0,“隱藏”:真正的},“spark_version”:{“類型”:“固定”,“價值”:“11.3.x-scala2.12”,“隱藏”:真正的},“docker_image.url”:{“類型”:“禁止”,“隱藏”:真正的}}