磚的運行時9.1 LTS機器學習

磚公布的這張照片,並宣布它長期支持(LTS) 2021年9月。

磚的運行時9.1 LTS機器學習提供了一個準備好了環境科學基於機器學習和數據磚運行時9.1 LTS。磚運行時毫升含有許多流行的機器學習庫,包括TensorFlow PyTorch, XGBoost。磚運行時毫升包括AutoML,一個工具來自動訓練機器學習管道。磚運行時毫升也支持使用Horovod分布深度學習培訓。

請注意

LTS意味著這個版本長期支持。看到(LTS)生命周期的長期支持

更多信息,包括指令創建磚集群運行時毫升、明白了介紹磚運行時機器學習

新特性和改進

AutoML

以下改進磚運行時9.1 LTS毫升以上的。

通過抽樣AutoML支持更大的數據集

現在AutoML樣本數據集,可能超過內存限製,允許它運行在大型數據集用更少的內存不足錯誤的風險。有關詳細信息,請參見抽樣大型數據集

基於語義類型AutoML預處理列

AutoML檢測特定列的語義類型不同於他們的火花或熊貓數據類型。AutoML然後轉換和數據預處理步驟適用於基於語義類型。具體來說,AutoML執行下麵的轉換:

  • 字符串和整數列代表日期或時間戳數據類型轉換為一個時間戳。

  • 字符串列表示數字數據轉換為數字類型。

改進AutoML生成的筆記本

預處理步驟現在納入日期和時間戳列databricks-automl-runtime生成的筆記本電腦包,簡化AutoML培訓。databricks-automl-runtime磚中包含運行時9.1 LTS毫升以上,也可用嗎PyPI

特色商店

以下改進磚運行時9.1 LTS毫升以上的。

  • 當您創建一個TrainingSet,您現在可以設置標簽=沒有支持無監督學習應用。

  • 現在,您可以在一個指定多個特性FeatureLookup

  • 現在,您可以指定一個自定義功能表的路徑。使用路徑參數create_feature_table ()。默認的是數據庫的位置。

  • 新的支持PySpark數據類型:ArrayType和ShortType。

Mlflow

可用以下改進在Mlflow 1.20.2版開始,這是包括在磚運行時9.1 LTS毫升。

  • Autologging scikit-learn現在每當scikit-learn記錄崗位指標評價API,如sklearn.metrics.mean_squared_error,被稱為。

  • Autologging PySpark毫升現在記錄崗位指標時模型評價API,如Evaluator.evaluate (),被稱為。

  • mlflow。* .log_modelmlflow。* .save_model現在有pip_requirementsextra_pip_requirements參數,這樣您就可以直接指定的pip需求模型來記錄或保存。

  • mlflow。* .log_modelmlflow。* .save_model現在自動推斷的pip需求模型來記錄或保存基於當前的軟件環境。

  • stdMetrics條目現在記錄為培訓指標在PySpark CrossValidator autologging。

  • PyTorch閃電autologging現在支持分布式執行。

磚Autologging(公共預覽版)

磚Autologging公共預覽版已經擴展到新的地區。磚Autologging是沒有代碼的解決方案,提供自動實驗跟蹤磚機器學習訓練。磚Autologging、模型參數、標準、文件,自動地獲取和血統信息,當你的火車模型從不同的流行的機器學習庫。培訓記錄MLflow跟蹤運行。模型文件跟蹤,這樣你可以很容易地記錄他們MLflow模型注冊和部署它們實時得分MLflow模型服務

關於磚Autologging的更多信息,請參閱磚Autologging

重大變化磚Python運行時毫升的環境

Python包升級

  • automl 1.1.1 = > 1.2.1

  • feature_store 0.3.3 = > 0.3.4.1

  • 假期0.10.5.2 = > 0.11.2

  • keras 2.5.0 = > 2.6.0

  • mlflow 1.19.0 = > 1.20.2

  • petastorm 0.11.1 = > 0.11.2

  • 情節4.14.3 = > 5.1.0

  • spark-tensorflow-distributor 0.1.0 = > 1.0.0

  • sparkdl 2.2.0_db1 = > 2.2.0_db3

  • tensorboard 2.5.0 = > 2.6.0

  • tensorflow 2.5.0 = > 2.6.0

Python包添加

  • databricks-automl-runtime 0.1.0

係統環境

磚的係統環境運行時9.1 LTS毫升不同於磚運行時9.1 LTS如下:

下麵列表中包含的庫磚運行時9.1 LTS毫升,不同於那些包含在運行時9.1 LTS磚。

Python庫

磚運行時9.1 LTS毫升使用Virtualenv Python包管理,包括許多流行毫升包。

除了指定的包在下麵幾節中,磚運行時9.1 LTS毫升還包括以下方案:

  • hyperopt 0.2.5.db2

  • sparkdl 2.2.0_db3

  • feature_store 0.3.4.1

  • automl 1.2.1 "

Python庫對CPU集群

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prometheus-client

0.10.1

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow-cpu

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cpu

torchvision

0.10.0 + cpu

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

Python庫在GPU集群

圖書館

版本

圖書館

版本

圖書館

版本

absl-py

0.11.0

Antergos Linux

2015.10 (ISO-Rolling)

appdirs

1.4.4

argon2-cffi

20.1.0

阿斯特

0.8.1

astunparse

1.6.3

async-generator

1.10

attrs

20.3.0

backcall

0.2.0

bcrypt

3.2.0

漂白劑

3.3.0

boto3

1.16.7

botocore

1.19.7

瓶頸

1.3.2

cachetools

4.2.2

certifi

2020.12.5

cffi

1.14.5

chardet

4.0.0

鏗鏘聲

5.0

點擊

7.1.2

cloudpickle

1.6.0

cmdstanpy

0.9.68

configparser

5.0.1

convertdate

2.3.2

密碼學

3.4.7

周期計

0.10.0

Cython

0.29.23

databricks-automl-runtime

0.1.0

databricks-cli

0.14.3

dbus-python

1.2.16

裝飾

5.0.6

defusedxml

是0.7.1

蒔蘿

0.3.2

diskcache

5.2.1

distlib

0.3.2

distro-info

0.23 ubuntu1

entrypoints

0.3

ephem

4.0.0.2

facets-overview

1.0.0

filelock

3.0.12

1.1.2

flatbuffers

1.12

fsspec

0.9.0

未來

0.18.2

使驚訝

0.4.0

gitdb

4.0.7

GitPython

3.1.12

google-auth

1.22.1

google-auth-oauthlib

0.4.2

google-pasta

0.2.0

grpcio

1.39.0

gunicorn

20.0.4

h5py

3.1.0

hijri-converter

2.2.1

假期

0.11.2

horovod

0.22.1

htmlmin

0.1.12

idna

2.10

ImageHash

4.2.1

importlib-metadata

3.10.0

ipykernel

5.3.4

ipython

7.22.0

ipython-genutils

0.2.0

ipywidgets

7.6.3

isodate

0.6.0

itsdangerous

1.1.0

絕地武士

0.17.2

Jinja2

14

jmespath

0.10.0

joblib

1.0.1

joblibspark

0.3.0

jsonschema

3.2.0

jupyter-client

6.1.12

jupyter-core

4.7.1

jupyterlab-pygments

0.1.2

jupyterlab-widgets

1.0.0

keras

2.6.0

Keras-Preprocessing

1.1.2

kiwisolver

1.3.1

考拉

1.8.1

korean-lunar-calendar

0.2.1

lightgbm

3.1.1

llvmlite

0.37.0

LunarCalendar

0.0.9

尖吻鯖鯊

1.1.3

減價

3.3.3

MarkupSafe

1.1.1

matplotlib

3.4.2

missingno

0.5.0

使走調

0.8.4

mleap

0.17.0

mlflow-skinny

1.20.2

多重方法

1.4

nbclient

0.5.3

nbconvert

6.0.7

nbformat

5.1.3

nest-asyncio

1.5.1

networkx

2.5

nltk

3.6.1

筆記本

6.3.0

numba

0.54.0

numpy

1.19.2

oauthlib

3.1.0

opt-einsum

3.3.0

包裝

20.9

熊貓

1.2.4

pandas-profiling

3.0.0

pandocfilters

3

paramiko

2.7.2

parso

0.7.0

容易受騙的人

0.5.1

petastorm

0.11.2

pexpect

4.8.0

phik

0.12.0

pickleshare

0.7.5

枕頭

8.2.0

皮普

21.0.1

情節

5.1.0

prompt-toolkit

3.0.17

先知

1.0.1

protobuf

3.17.2

psutil

5.8.0

psycopg2

2.8.5

ptyprocess

0.7.0

pyarrow

4.0.0

pyasn1

0.4.8

pyasn1-modules

0.2.8

pycparser

2.20

pydantic

1.8.2

Pygments

2.8.1發布

PyGObject

3.36.0

PyMeeus

0.5.11

PyNaCl

1.3.0

pyodbc

4.0.30

pyparsing

2.4.7

pyrsistent

0.17.3

pystan

2.19.1.1

python-apt

2.0.0 + ubuntu0.20.4.6

python-dateutil

2.8.1發布

python編輯器

1.0.4

pytz

2020.5

PyWavelets

1.1.1

PyYAML

5.4.1之前

pyzmq

20.0.0

正則表達式

2021.4.4

請求

2.25.1

requests-oauthlib

1.3.0

requests-unixsocket

0.2.0

rsa

4.7.2

s3transfer

0.3.7

scikit-learn

0.24.1

scipy

1.6.2

seaborn

0.11.1

Send2Trash

1.5.0

setuptools

52.0.0

setuptools-git

1.2

世鵬科技電子

0.39.0

simplejson

3.17.2

六個

1.15.0

切片機

0.0.7

smmap

3.0.5

spark-tensorflow-distributor

1.0.0

sqlparse

0.4.1

ssh-import-id

5.10

statsmodels

0.12.2

彙總

0.8.7

tangled-up-in-unicode

0.1.0

韌性

6.2.0

tensorboard

2.6.0

tensorboard-data-server

0.6.1

tensorboard-plugin-wit

1.8.0

tensorflow

2.6.0

tensorflow-estimator

2.6.0

termcolor

1.1.0

terminado

0.9.4

testpath

0.4.4

threadpoolctl

魅惑

火炬

1.9.0 + cu111

torchvision

0.10.0 + cu111

龍卷風

6.1

tqdm

4.59.0

traitlets

5.0.5

typing-extensions

3.7.4.3

ujson

4.0.2

unattended-upgrades

0.1

urllib3

1.25.11

virtualenv

20.4.1

願景

是0.7.1

wcwidth

0.2.5

webencodings

0.5.1

websocket-client

0.57.0

Werkzeug

1.0.1

0.36.2

widgetsnbextension

3.5.1

打包

1.12.1

xgboost

1.4.2

氧化鋅碘仿糊

3.4.1

引發包包含Python模塊

火花包

Python模塊

版本

graphframes

graphframes

0.8.1-db3-spark3.1

R庫

R庫的完全相同R庫在運行時9.1 LTS磚。

Java和Scala庫(Scala 2.12集群)

除了Java和Scala庫磚運行時9.1 LTS,磚運行時9.1 LTS毫升包含以下jar:

CPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-spark_2.12

1.4.1

ml.dmlc

xgboost4j_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0

GPU集群

組ID

工件ID

版本

com.typesafe.akka

akka-actor_2.12

2.5.23

ml.combust.mleap

mleap-databricks-runtime_2.12

0.17.0-4882dc3

ml.dmlc

xgboost4j-gpu_2.12

1.4.1

ml.dmlc

xgboost4j-spark-gpu_2.12

1.4.1

org.graphframes

graphframes_2.12

0.8.1-db2-spark3.1

org.mlflow

mlflow-client

1.20.2

org.mlflow

mlflow-spark

1.20.2

org.scala-lang.modules

scala-java8-compat_2.12

0.8.0

org.tensorflow

spark-tensorflow-connector_2.12

1.15.0