Databricks Runtime 10.4 LTS for Machine Learning

Databricks Runtime 10.4 LTS for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 10.4 LTS.Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch和XGBoost。Databricks Runtime ML包含AutoML,一個自動訓練機器學習管道的工具。Databricks Runtime ML還支持使用Horovod進行分布式深度學習訓練。

請注意

LTS說明這個版本在下麵長期支持.看到長期支持(LTS)生命周期

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見介紹Databricks運行時機器學習

新功能和改進

ML是建立在Databricks Runtime 10.4 LTS之上的。有關Databricks Runtime 10.4 LTS(包括Apache Spark MLlib和SparkR)中的新特性的信息,請參見Databricks Runtime 10.4 LTS發行說明。

對Databricks AutoML的增強

對。進行了以下增強磚AutoML

Databricks AutoML通常是可用的

從Databricks Runtime 10.4 LTS ML開始,Databricks AutoML通常可用。

缺失值的歸屬

現在可以指定如何計算空值。默認情況下,AutoML根據列類型和內容選擇一種imputation方法。看到缺失值的歸屬

從UI選擇列

對於分類和回歸問題,除了API,現在還可以使用UI來指定AutoML在計算過程中應該忽略的列。看到列選擇獲取詳細信息。

新的數據類型

AutoML現在支持數值數組類型。

生成的筆記本和實驗的自定義位置

您現在可以在工作空間中指定一個位置,AutoML應該在這裏保存生成的筆記本和實驗。使用experiment_dir參數。看到分類和回歸參數

對Databricks功能商店的增強

對。進行了以下增強Databricks功能商店

係統環境

Databricks Runtime 10.4 LTS ML與Databricks Runtime 10.4 LTS的係統環境不同:

以下部分列出了Databricks Runtime 10.4 LTS ML中包含的不同於Databricks Runtime 10.4 LTS的庫。

Python庫

Databricks Runtime 10.4 LTS ML使用Virtualenv進行Python包管理,包括許多流行的ML包。

Databricks Runtime 10.4 LTS ML除了以下章節中指定的包外,還包括以下包:

  • hyperopt 0.2.7.db1

  • sparkdl 2.2.0-db5

  • feature_store 0.3.8

  • automl 1.7.2

CPU集群上的Python庫

若要在本地Python虛擬環境中重新生成Databricks Runtime ML Python環境,請下載requirements-10.4.txt文件並運行皮普安裝- rrequirements-10.4.txt.該命令安裝Databricks Runtime ML使用的所有開源庫,但不安裝Databricks開發的庫,例如databricks-automldatabricks-feature-store,或Databricks的分支hyperopt

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.6雖然隻是

databricks-cli

0.16.3

dbl-tempo

0.1.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.4

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1.3

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.3

假期

0.12

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.8.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

13.0.0

lightgbm

3.3.2

llvmlite

0.38.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.1

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.24.0

多重方法

1.7

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.55.1

numpy

1.20.1

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.4

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

發送的

pmdarima

1.8.4

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.9.1

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.7

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.1之上

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.8.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.1

tensorflow-cpu

2.8.0

tensorflow-estimator

2.8.0

tensorflow-io-gcs-filesystem

0.24.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

tf-estimator-nightly

2.8.0.dev2021122109

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.2 + cpu

torchvision

0.11.3 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.16.2

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.2

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.6雖然隻是

databricks-cli

0.16.3

dbl-tempo

0.1.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.4

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.1.3

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.3

假期

0.12

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.8.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

13.0.0

lightgbm

3.3.2

llvmlite

0.38.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.1

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.24.0

多重方法

1.7

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.55.1

numpy

1.20.1

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.4

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

發送的

pmdarima

1.8.4

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.9.1

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.7

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.1之上

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.8.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.1

tensorflow

2.8.0

tensorflow-estimator

2.8.0

tensorflow-io-gcs-filesystem

0.24.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

tf-estimator-nightly

2.8.0.dev2021122109

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.2 + cu111

torchvision

0.11.3 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.16.2

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.2

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R庫

R庫與R庫在Databricks運行時10.4 LTS。

Java和Scala庫(Scala 2.12集群)

除了在Databricks Runtime 10.4 LTS中的Java和Scala庫之外,Databricks Runtime 10.4 LTS ML還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.2

ml.dmlc

xgboost4j_2.12

1.5.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.24.0

org.mlflow

mlflow-spark

1.24.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.2

ml.dmlc

xgboost4j_2.12

1.5.2

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.24.0

org.mlflow

mlflow-spark

1.24.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0