準備數據和環境對機器學習和深入學習

本節描述如何準備你的數據和你的數據磚機器學習更深的學習環境。

準備數據

文章在這一節中包含加載和數據預處理的各個方麵的ML和DL應用程序。

準備環境

磚運行時機器學習(磚運行時的ML)是一個準備好環境優化的機器學習和數據科學。磚運行時毫升包含許多外部庫,包括TensorFlow PyTorch, Horovod, scikit-learn XGBoost,提高性能和提供擴展,包括GPU加速XGBoost、分布式深度學習使用HorovodRunner,檢查點使用模型磚(DBFS)保險絲掛載文件係統

使用磚運行時毫升,選擇ML版本的運行時當你創建您的集群

請注意

在統一目錄訪問數據機器學習工作流,您必須使用一個單用戶集群。用戶隔離集群不兼容數據磚運行時機器學習。

安裝庫

你可以安裝額外的要創建一個自定義你的筆記本或集群環境。

使用GPU集群

您可以創建集群GPU加速深度學習任務。創建磚GPU集群的信息,請參閱GPU-enabled集群。磚運行時毫升包括GPU硬件驅動程序和NVIDIA CUDA等庫。