磚運行時5.2毫升特性Multi-GPU工作流,Pregel API和高性能GraphFrames

通過一帆曹和約瑟夫·布拉德利

2019年1月30日在工程的博客

分享這篇文章

我們興奮地宣布釋放磚5.2運行時機器學習。這個版本包含了幾個新特性和性能改進,幫助開發人員輕鬆地使用機器學習磚統一分析平台Beplay体育安卓版本。

繼續我們的努力讓開發人員的生活容易構建深度學習的應用程序,這個版本包括以下特點和改進:

HorovodRunner包括簡化工作流multi-GPU機器和支持一個返回值。
GraphFrames引入了一個Pregel-like API使用DataFrame bulk-synchronous消息傳遞操作,磚的性能優化。
現在集群開始更快。

使用HorovodRunner分布式訓練

在磚運行時5.0毫升的新的API,我們介紹了HorovodRunner分布深度學習培訓。在本版本中,我們引入了兩個新功能。

首先,使用節點HorovodRunner提供了內置的支持,每個有多個gpu。在GPU集群,每個Horovod過程映射到GPU集群,以及這些過程被放置在計算節點組。例如,如果您運行一個np = 7的工作流程與4 GPU集群GPU在每個節點上,那麼你將有4個過程在第一節點和3過程第二節點。這簡化了工作設置同時減少inter-task通信成本。

第二,HorovodRunner.run ()從MPI過程調用可以返回值0。這使得數據科學家更容易獲取有用的結果,如培訓指標或訓練模型,下麵的代碼片段。

def火車():”“”的方法為每個Horovod運行培訓工人”“”
              模型= get_model ()model.train ()#新:我們使用返回值為評價指標。eval_results = model.evaluate (…)返回eval_resultshr = HorovodRunner (np =8)eval_results = hr.run(火車)打印(eval_results.metric_avg)打印(eval_results.metric_std)

了解如何運行分布式深度學習培訓磚運行時5.2毫升,看醫生Azure磚和AWS。

Pregel API GraphFrames

GraphFrames是開源的圖形處理庫之上的Apache DataFrames火花。在最新的版本中,GraphFrames暴露Pregel API,這是一個bulk-synchronous消息傳遞API實現迭代圖算法。例如,下麵的代碼片段PageRank運行。

val排名=graph.pregel.withVertexColumn(“排名”,點燃了(1.0/numVertices),合並(Pregel。味精,點燃(0.0))*(1.0- - - - - -α)+α/numVertices).sendMsgToDst (Pregel.src(“排名”)/Pregel.src(“出度”)).aggMsgs (總和(Pregel.msg)).run ()

更多細節,請查看Scala API和Python API。

磚運行時的5.2毫升,我們進一步提高的速度從開源GraphFrames Pregel實現10 x。

性能改進

包括在磚PyTorch運行時增加5.1毫升β集群開始時間。在這個版本中,我們刪除一些重複的庫,幫助導致更快的啟動時間的25%。

其他包更新

我們更新了以下方案:

Horovod 0.15.0, 0.15.2
TensorBoard 1.12.0, 1.12.2

閱讀更多

閱讀更多關於磚運行時為5.2毫升βAzure磚和AWS。
試著筆記本的例子分布式深度學習培訓Azure磚和AWS磚運行時的5.2毫升β。

免費試著磚

開始

看到所有工程的博客的帖子