Databricks運行時9.1 LTS機器學習

Databricks於2021年9月發布了這張圖片,並宣布其為長期支持(LTS)。

Databricks Runtime 9.1 LTS for Machine Learning為機器學習和數據科學提供了一個現成的環境Databricks Runtime 9.1 LTS。Databricks Runtime ML包含許多流行的機器學習庫,包括TensorFlow、PyTorch和XGBoost。Databricks Runtime ML包含AutoML,一個自動訓練機器學習管道的工具。Databricks Runtime ML還支持使用Horovod進行分布式深度學習訓練。

請注意

LTS說明這個版本在下麵長期支持。看到長期支持(LTS)生命周期

有關更多信息,包括創建Databricks Runtime ML集群的說明,請參見介紹Databricks運行時機器學習

新功能和改進

AutoML

以下改進在Databricks Runtime 9.1 LTS ML及以上版本中可用。

AutoML通過采樣支持更大的數據集

AutoML現在對可能超出內存限製的數據集進行采樣,允許它在更大的數據集上運行,從而降低內存不足錯誤的風險。詳細信息請參見對大型數據集進行采樣

AutoML基於語義類型對列進行預處理

AutoML檢測某些列的語義類型與Spark或pandas數據類型不同。AutoML然後根據檢測到的語義類型轉換並應用數據預處理步驟。具體來說,AutoML執行以下轉換:

  • 表示日期或時間戳數據的字符串和整數列被轉換為時間戳類型。

  • 表示數值數據的字符串列被轉換為數值類型。

改進了AutoML生成的筆記本

日期和時間戳列的預處理步驟現在合並到databricks-automl-runtime包,簡化了AutoML訓練生成的筆記本。databricks-automl-runtime已包含在Databricks Runtime 9.1 LTS ML及以上版本中,也可在PyPI

特色商店

以下改進在Databricks Runtime 9.1 LTS ML及以上版本中可用。

詳細信息請參見特性存儲文檔特性存儲API文檔

  • 當您創建TrainingSet時,您現在可以進行設置標簽=沒有支持無監督學習應用。

  • 您現在可以在單個文件中指定多個特性FeatureLookup

  • 現在可以為特性表指定自定義路徑。使用路徑參數create_feature_table ()。默認是數據庫位置。

  • 新的支持PySpark數據類型: ArrayType和ShortType。

Mlflow

以下改進從Mlflow版本1.20.2開始提供,該版本包含在Databricks Runtime 9.1 LTS ML中。

  • scikit-learn的自記錄現在記錄訓練後的指標,每當scikit-learn評估API,例如sklearn.metrics.mean_squared_error,叫做。

  • PySpark ML的自動記錄現在記錄訓練後的指標,每當一個模型評估API,例如Evaluator.evaluate (),叫做。

  • mlflow。* .log_model而且mlflow。* .save_model現在有pip_requirements而且extra_pip_requirements參數,以便您可以直接指定要記錄或保存的模型的PIP需求。

  • mlflow。* .log_model而且mlflow。* .save_model現在根據當前的軟件環境自動推斷模型的PIP需求來記錄或保存。

  • stdMetrics在PySpark CrossValidator自動記錄期間,條目現在被記錄為訓練指標。

  • PyTorch Lightning自記錄現在支持分布式執行。

Databricks自動記錄(公開預覽)

Databricks自動登記公共預覽已經擴展到新的區域。Databricks Autologging是一個無代碼的解決方案,為Databricks上的機器學習培訓課程提供自動實驗跟蹤。使用Databricks Autologging,當您從各種流行的機器學習庫中訓練模型時,可以自動捕獲模型參數、指標、文件和沿襲信息。訓練課程被記錄為MLflow跟蹤運行。模型文件也被跟蹤,因此您可以輕鬆地將它們記錄到MLflow模型注冊表並將它們用於實時評分MLflow模型服務

有關Databricks自動記錄的更多信息,請參見磚Autologging

Databricks Runtime ML Python環境的主要更改

Python包升級

  • Automl 1.1.1 =>

  • Feature_store 0.3.3 => 0.3.4.1

  • 假日0.10.5.2 => 0.11.2

  • Keras 2.5.0 => 2.6.0

  • Mlflow 1.19.0 =>

  • Petastorm 0.11.1 => 0.11.2

  • 圖4.14.3 => 5.1.0

  • Spark-tensorflow-distributor 0.1.0 => 1.0.0

  • Sparkdl 2.2.0_db1 => 2.2.0_db3

  • Tensorboard 2.5.0 => 2.6.0

  • Tensorflow 2.5.0 => 2.6.0

新增Python包

  • databricks-automl-runtime 0.1.0

係統環境

Databricks Runtime 9.1 LTS ML與Databricks Runtime 9.1 LTS的係統環境不同:

以下部分列出了Databricks Runtime 9.1 LTS ML中包含的不同於Databricks Runtime 9.1 LTS的庫。

Python庫

Databricks Runtime 9.1 LTS ML使用Virtualenv進行Python包管理,包括許多流行的ML包。

除了以下章節中指定的包,Databricks Runtime 9.1 LTS ML還包括以下包:

  • hyperopt 0.2.5.db2

  • sparkdl 2.2.0_db3

  • feature_store 0.3.4.1

  • automl 1.2.1 "

CPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cpu

torchvision

0.10.0 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

GPU集群上的Python庫

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cu111

torchvision

0.10.0 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

包含Python模塊的Spark包

火花包

Python模塊

版本

graphframes

graphframes

0.8.1-db3-spark3.1

R庫

R庫與R庫在Databricks Runtime 9.1 LTS。

Java和Scala庫(Scala 2.12集群)

除了在Databricks Runtime 9.1 LTS中的Java和Scala庫之外,Databricks Runtime 9.1 LTS ML還包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0