數據團隊使用Databricks來解決世界上最棘手的問題。這可能涉及運行大規模數據處理作業以提取,轉換和分析數據。但是,它通常還涉及單台計算機的數據分析,數據科學和機器學習,例如使用Scikit-Learn之類的庫。為了簡化這些單個機器工作負載,我們很高興宣布本機支持用於在數據鏈球上創建單節點群集。
背景和動力
標準數據快速群火花簇由一個驅動程序節點和一個或多個工作人員節點組成。這些群集至少需要兩個節點(一個驅動程序和一個工人)才能運行Spark SQL查詢,從三角洲讀取,或執行其他火花操作。但是,對於許多機器學習模型培訓或輕巧的數據工作負載,多節點簇是不必要的。
單節點簇是單個機器工作負載的成本效益選擇。單節點簇支持火花和火花數據源,包括三角洲,以及包括Scikit-Learn和TensorFlow在內的庫機器學習的運行時間。
例如,假設一個人想在包含的三角洲表上訓練Scikit-Learn機器學習模型UCI成人普查數據集。這個相對較小的數據集(<50k表行行)可以輕鬆處理,轉換為Pandas DataFrame並用於訓練單台機器上的Scikit-Learn型號。Spark SQL查詢也可以很好地縮小到單個節點群集,如前所述博客文章單台計算機上的基準測試。
創建單節點群
現在可以在公共預覽中以新的群集模式在交互式群集創建UI中獲得單節點簇。選擇此模式將配置群集以僅啟動驅動程序節點,同時仍在驅動程序上的本地模式下支持Spark作業。
為了進一步簡化集群創建過程,管理員還可以創建集群策略對於單節點群集創建。使用這些策略,用戶可以啟動具有零附加配置並受預算控件的單節點群集。有關更多詳細信息,包括示例單節點群集策略看到用戶指南。在下麵的視頻中,我們說明了群集管理員如何設置單個節點策略,用戶可以通過直接選擇策略來創建預配置的單節點簇。
學到更多關於單節點簇,立即開始使用它們