Databricks Runtime 10.2 for ML(不支持)

Databricks於2021年12月發布了這張照片。

Databricks Runtime 10.2 for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 10.2(不支持)。Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow, PyTorch和XGBoost。Databricks運行時ML包括AutoML這是一種自動訓練機器學習管道的工具。Databricks Runtime ML還支持使用Horovod進行分布式深度學習訓練。

有關詳細信息,包括創建Databricks運行時ML集群的說明,請參見介紹Databricks運行時機器學習

新特性和改進

Databricks Runtime 10.2 ML是建立在Databricks Runtime 10.2之上的。有關Databricks Runtime 10.2(包括Apache Spark MLlib和SparkR)新增功能的信息,請參閱Databricks Runtime 10.2(不支持)發行說明。

Databricks autoologging(公開預覽)

Databricks autoologging現在在所有地區的公共預覽。Databricks autoologging是一個無代碼解決方案,為Databricks上的機器學習培訓課程提供自動實驗跟蹤。使用Databricks autoologging,當您從各種流行的機器學習庫中訓練模型時,可以自動捕獲模型參數、度量、文件和沿襲信息。培訓課程記錄為MLflow跟蹤運行。模型文件也被跟蹤,因此您可以很容易地將它們記錄到MLflow模型注冊表並部署它們進行實時得分MLflow模型服務

有關Databricks自動記錄的詳細信息,請參見磚Autologging

Databricks AutoML的增強

進行了以下增強磚AutoML

  • AutoML忽略隻有一個值的列。

  • 對於分類和回歸問題,用於按時間順序將數據集分成訓練集、驗證集和測試集的時間列現在可以是字符串類型。以前隻支持時間戳和整數。看到將數據分成訓練集/驗證集/測試集獲取詳細信息。

增強了Databricks功能存儲

進行了以下增強Databricks功能商店

簡化FeatureStoreClient接口

FeatureStoreClient接口已經簡化。

  • FeatureStoreClient.create_feature_table ()已棄用。相反,使用FeatureStoreClient.create_table ()

  • FeatureStoreClient.get_feature_table ()已棄用。相反,使用FeatureStoreClient.get_table ()

  • 的所有參數FeatureStoreClient.publish_table ()除了名字online_store必須作為關鍵字參數傳遞。

有關更多信息,請參見使用特性表Python API

僅將選定的列發布到在線商店

Databricks Feature Store現在隻支持將選定的列發布到在線商店。有關更多信息,請參見將選定的特性發布到在線商店

對Databricks Runtime ML Python環境的主要更改

自動MLflow跟蹤集成在Databricks Runtime 10.1 ML中已棄用的Apache Spark MLlib,現在在Databricks Runtime 10.2 ML中默認禁用MLflow的PySpark ML自動記錄集成,默認情況下使用磚Autologging。自動記錄除了MLlib的自動化MLflow跟蹤所捕獲的信息之外的其他信息,包括與最佳模型相關的參數、度量和工件。

Python包升級

  • databicks -cli 0.14.3 => 0.16.2

  • Keras 2.6.0 => 2.7.0

  • Lightgbm 3.3.0 => 3.3.1

  • Mlflow 1.21.0 => 1.22.0

  • 情節5.3.0 => 5.3.1

  • 形狀0.39.0 => 0.40.0

  • space 3.1.3 => 3.2.0

  • Tensorboard 2.6.0 => 2.7.0

  • Tensorflow 2.6.0 => 2.7.0

  • 火炬1.9.1 => 1.10.0

  • 火炬視野0.10.1 => 0.11.1

  • 變壓器4.11.3 => 4.12.3

  • Xgboost 1.4.2 => 1.5.0

係統環境

Databricks Runtime 10.2 ML中的係統環境與Databricks Runtime 10.2有以下不同:

以下部分列出了Databricks Runtime 10.2 ML中包含的與Databricks Runtime 10.2中包含的不同的庫。

Python庫

Databricks Runtime 10.2 ML使用Virtualenv進行Python包管理,並包含許多流行的ML包。

除了以下章節中指定的包外,Databricks Runtime 10.2 ML還包括以下包:

  • hyperopt 0.2.7.db1

  • sparkdl 2.2.0-db5

  • feature_store 0.3.6

  • automl 1.5.0

CPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.4

databricks-cli

0.16.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

以下4.4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.22.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.1

3.0.5

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1發布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.0

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.22.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.0 + cpu

torchvision

0.11.1 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.12.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.0

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

bidict

0.21.4

漂白劑

3.3.0

bli

0.7.4

boto3

1.16.7

botocore

1.19.7

cachetools

4.2.4

目錄

2.0.6

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

cymem

2.0.5

Cython

0.29.23

databricks-automl-runtime

0.2.4

databricks-cli

0.16.2

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.3

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

以下4.4.1

facets-overview

1.0.0

fasttext

0.9.2

filelock

3.0.12

1.1.2

flatbuffers

2.0

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

gviz-api

1.10.0

h5py

3.1.0

hijri-converter

2.2.2

假期

0.11.3.1

horovod

0.23.0

htmlmin

0.1.12

huggingface-hub

0.1.2

idna

2.10

ImageHash

4.2.1

imbalanced-learn

0.8.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.7.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.2

korean-lunar-calendar

0.2.1

langcodes

3.3.0

libclang

12.0.0

lightgbm

3.3.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

2.0.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.18.1

mlflow-skinny

1.22.0

多重方法

1.6

murmurhash

1.0.5

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.1

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

21.3

熊貓

1.2.4

pandas-profiling

3.1.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

表“感覺”

0.6.0

容易受騙的人

0.5.1

petastorm

0.11.3

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.3.1

3.0.5

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pybind11

2.8.1發布

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.4.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

python-engineio

4.3.0

python-socketio

5.4.1之前

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

sacremoses

0.0.46

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.40.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smart-open

5.2.0

smmap

3.0.5

寬大的

3.2.0

spacy-legacy

3.0.8

spacy-loggers

1.0.1

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

srs

2.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.7.0

tensorboard-data-server

0.6.1

tensorboard-plugin-profile

2.5.0

tensorboard-plugin-wit

1.8.0

tensorflow

2.7.0

tensorflow-estimator

2.7.0

tensorflow-io-gcs-filesystem

0.22.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

thinc

8.0.12

threadpoolctl

魅惑

分詞器

0.10.3

火炬

1.10.0 + cu111

torchvision

0.11.1 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

變形金剛

4.12.3

打字機

0.3.2

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

0.7.4

芥末醬

0.8.2

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.5.0

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.2-db1-spark3.2

R庫

R庫和R庫在Databricks Runtime 10.2中。

Java和Scala庫(Scala 2.12集群)

除了Databricks Runtime 10.2中的Java和Scala庫之外,Databricks Runtime 10.2 ML還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.22.0

org.mlflow

mlflow-spark

1.22.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.18.1-23eb1ef

ml.dmlc

xgboost4j-spark_2.12

1.5.1

ml.dmlc

xgboost4j_2.12

1.5.1

org.graphframes

graphframes_2.12

0.8.2-db1-spark3.2

org.mlflow

mlflow-client

1.22.0

org.mlflow

mlflow-spark

1.22.0

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0