PyTorch
PyTorch項目是一個Python包,提供GPU加速的張量計算和高水平的功能構建深度學習網絡。許可的細節,請參閱PyTorch許可證醫生在GitHub上。
監控和調試PyTorch模型,考慮使用TensorBoard。
PyTorch磚中包含運行時機器學習。如果您使用的是磚運行時,看到的安裝PyTorch安裝PyTorch指令。
請注意
這不是一個全麵PyTorch指南。有關更多信息,請參見PyTorch網站。
安裝PyTorch
磚運行時為毫升
介紹磚運行時機器學習包括PyTorch所以你可以創建集群和開始使用PyTorch。PyTorch安裝在磚運行時版本的ML版本使用,看到發布說明。
磚運行時
磚建議您使用PyTorch列入介紹磚運行時機器學習。但是,如果你必須使用磚運行時,PyTorch可以安裝磚PyPI圖書館。下麵的例子展示了如何安裝PyTorch 1.5.0:
在GPU集群、安裝
pytorch
和torchvision
通過指定以下:火炬= = 1.5.0
torchvision = = 0.6.0
對CPU集群、安裝
pytorch
和torchvision
通過使用下麵的輪子文件:https://download.pytorch.org/whl/cpu/torch-1.5.0%2Bcpu-cp37-cp37m-linux_x86_64.whl https://download.pytorch.org/whl/cpu/torchvision-0.6.0%2Bcpu-cp37-cp37m-linux_x86_64.whl
為分布式PyTorch錯誤和故障排除
以下部分描述常見的錯誤信息和故障排除指南類:PyTorch DataParallel或PyTorch DistributedDataParallel。大多數這些錯誤都有可能得到解決TorchDistributor上可用,這是磚運行時毫升13.0及以上。然而,如果TorchDistributor
不是一個可行的解決方案,建議解決方案還提供了在每個部分。
下麵是一個如何使用TorchDistributor的例子:
從pyspark.ml.torch.distributor進口TorchDistributordeftrain_fn(learning_rate):#……num_processes=2經銷商=TorchDistributor(num_processes=num_processes,local_mode=真正的)經銷商。運行(train_fn,1 e - 3)