跳轉到主要內容
工程的博客

介紹磚5.0運行時機器學習

分享這篇文章

六個月前我們介紹了磚運行時機器學習的機器學習性能和簡單的磚統一的分析平台。Beplay体育安卓版本毫升是預包裝的磚運行時的許多毫升框架,使分布式訓練和推理。今天我們第二次迭代興奮釋放包括Conda支持TensorFlow的最新版本,HorovodRunner API用於分布式深度學習培訓和性能優化Graphframes和MLlib。

我們客戶beplay体育app下载地址的興奮和接待的第一個實驗毫升的磚運行時,版本4.1,超出了我們的預期。這鼓勵我們繼續運行時,常規的生產節奏。5.0開始運行時,我們將發布一個新的運行時對每毫升DBR發布最新穩定版本的主要框架,比如TensorFlow。

這對所有磚層5.0版本是可用的,包括Community Edition。你可以找到包括圖書館在我們的列表發布說明,尤其是我們的新API用於分布式深度學習培訓HorovodRunner。此外,我們正在引入幾個關鍵改進依賴於機器學習數據科學家和工程師。

Conda管理運行時

磚運行時為5.0毫升是第一個我們使用Conda Python包管理。所有的Python包都是安裝在一個單一的環境。這是我們圖書館管理相同的環境將雞蛋和PyPi包安裝到。

這是我們第一步更數據scientist-friendly環境。使用Conda我們將添加更多的功能,讓它更加突出的包管理器在運行時毫升。你可以找到指令使用Conda集群內部初始化腳本或筆記本在這裏

升級Tensorflow

這個版本升級Tensorflow版本1.10。在GPU集群,客戶將有CUDA-obeplay体育app下载地址ptimized版本和標準我們提供的方案,利用實例英特爾MKL-DNN在英特爾cpu提供最高性能的數值計算。2.2.4 Keras版本。

優化訓練算法

我們做了性能改進引發MLlib邏輯回歸和樹分類器,最受歡迎的磚客戶所使用的估計。beplay体育app下载地址我們觀察到~ 40%加速火花性能測試而Apache火花測試盒框。您可以利用兩個磚上的改進的性能運行5.0和磚運行時5.0毫升。

GraphFrames圖書館與運行時綁定5.0毫升包含一個優化的連接組件實現。現在用更快的運行和支持更大的圖。圖查詢將利用基於成本的優化(CBO)火花確定加入訂單,如果底層節點和邊表包含列統計。這可能會導致100 x加速,這取決於你的工作負載和數據傾斜。

受歡迎的ML包

我們包括最新的穩定版本的其他幾個流行的機器學習庫從Apache火花和Tensorflow生態係統。

  • XGBoost v0.80
  • GraphFrames v0.6.0-db1
  • MLeap v0.13.0
  • TensorFrames v0.5.0
  • 深度學習v1.3.0-db1火花
免費試著磚
看到所有工程的博客的帖子
Baidu
map