取消
顯示的結果
而不是尋找
你的意思是:

Horovod磚工作——自定義模塊沒有找到錯誤

Serhii
貢獻者

我們使用下麵的例子成功創建一個分布式深度學習培訓的筆記本//m.eheci.com/blog/2022/09/07/accelerating-your-deep-learning-pytorch-lightning-databri..。像預期的那樣工作。

我們現在想要運行這個筆記本作為計算工作流任務的工作,基本上運行相同的代碼,但使用磚的工作。這個意外讓我們錯誤:

信息:HorovodRunner:開始訓練。警告:永久“172.17.131.218”(ECDSA)添加到已知的主機列表。警告:永久“172.17.162.215”(ECDSA)添加到已知的主機列表。[1]< stderr >:回溯(最近的電話最後):[1]< stderr >:文件“<字符串>”,1號線,在<模塊> [1]< stderr >: ModuleNotFoundError:沒有模塊命名為“培訓”

培訓這是小python模塊文件在同一文件夾包含可重用的庫函數。我的猜測是,頂級進口工作節點上執行代碼在筆記本上可能沒有這個文件。但我困惑這是發生的原因:

  1. 不該horovod隻是工作/傳遞給工人功能已經裝載在特別的環境中提供調用HorovodRunner.run
  2. 為什麼我們沒有看到交互式集群上運行相同的筆記本嗎

謝謝你的幫助

1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

嗨@Sergii Ivakhno, DBR版本你運行這個筆記本嗎?

注意:- - - - - -確保創建磚運行時毫升的集群和附加到這個筆記本。(你不能運行這個練習標準磚運行時沒有“毫升。”)

毫升運行時優化深度學習,和所有相關的組件(TensorFlow、Horovod Keras, XGBoost,等等)已經內置。(你不需要自己安裝這些組件。)

內置HorovodRunner毫升運行時幫助Horovod運行在Apache火花™。(Horovod(超級)有一個高效parameter-sharing機製,有利於擴展)。

在原帖子查看解決方案

2回答2

Kaniz
社區經理
社區經理

嗨@Sergii Ivakhno, DBR版本你運行這個筆記本嗎?

注意:- - - - - -確保創建磚運行時毫升的集群和附加到這個筆記本。(你不能運行這個練習標準磚運行時沒有“毫升。”)

毫升運行時優化深度學習,和所有相關的組件(TensorFlow、Horovod Keras, XGBoost,等等)已經內置。(你不需要自己安裝這些組件。)

內置HorovodRunner毫升運行時幫助Horovod運行在Apache火花™。(Horovod(超級)有一個高效parameter-sharing機製,有利於擴展)。

Kaniz
社區經理
社區經理

嗨@Sergii Ivakhno,我們還沒聽到你自從上次回應我,我檢查看看我的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map