PyTorch

PyTorch項目是一個Python包,提供GPU加速的張量計算和高水平的功能構建深度學習網絡。許可的細節,請參閱PyTorch許可證醫生在GitHub上

監控和調試PyTorch模型,考慮使用TensorBoard

PyTorch磚中包含運行時機器學習。如果您使用的是磚運行時,看到的安裝PyTorch安裝PyTorch指令。

請注意

這不是一個全麵PyTorch指南。有關更多信息,請參見PyTorch網站

單節點和分布式訓練

測試和遷移單機工作流程,使用單節點集群

深度學習分布式訓練選項,請參閱分布式訓練

例如筆記本電腦

PyTorch筆記本

在新標簽頁打開筆記本

安裝PyTorch

磚運行時為毫升

介紹磚運行時機器學習包括PyTorch所以你可以創建集群和開始使用PyTorch。PyTorch安裝在磚運行時版本的ML版本使用,看到發布說明

磚運行時

磚建議您使用PyTorch列入介紹磚運行時機器學習。但是,如果你必須使用磚運行時,PyTorch可以安裝磚PyPI圖書館。下麵的例子展示了如何安裝PyTorch 1.5.0:

  • 在GPU集群、安裝pytorchtorchvision通過指定以下:

    • 火炬= = 1.5.0

    • torchvision = = 0.6.0

  • 對CPU集群、安裝pytorchtorchvision通過使用下麵的輪子文件:

    https://download.pytorch.org/whl/cpu/torch-1.5.0%2Bcpu-cp37-cp37m-linux_x86_64.whl https://download.pytorch.org/whl/cpu/torchvision-0.6.0%2Bcpu-cp37-cp37m-linux_x86_64.whl

為分布式PyTorch錯誤和故障排除

以下部分描述常見的錯誤信息和故障排除指南類:PyTorch DataParallelPyTorch DistributedDataParallel。大多數這些錯誤都有可能得到解決TorchDistributor上可用,這是磚運行時毫升13.0及以上。然而,如果TorchDistributor不是一個可行的解決方案,建議解決方案還提供了在每個部分。

下麵是一個如何使用TorchDistributor的例子:

pyspark.ml.torch.distributor進口TorchDistributordeftrain_fn(learning_rate):#……num_processes=2經銷商=TorchDistributor(num_processes=num_processes,local_mode=真正的)經銷商運行(train_fn,1 e - 3)

過程0終止退出代碼1

這個錯誤發生在使用筆記本電腦時,不管環境:磚,本地機器,等。為了避免這種錯誤,使用torch.multiprocessing.start_processesstart_method =叉而不是torch.multiprocessing.spawn

例如:

進口火炬deftrain_fn(排名,learning_rate):#需要設置,如設置(排名)#……num_processes=2火炬多處理start_processes(train_fn,arg遊戲=(1 e - 3),nprocs=num_processes,start_method=“叉”)

服務器套接字失敗的綁定[:]:{端口號}(errno:98年- - - - - -地址已經使用)。

出現這個錯誤,當你重新啟動分布式培訓打斷後細胞而發生。

解決,重新啟動集群。如果不解決這個問題,可能有一個錯誤在訓練函數的代碼。