06-17-202101:34我
原則上有四個不同的使用parallelisation做機器學習的方法。這些操作的組合可以大大加快整個管道。
1)工程中使用火花分布式處理功能
2)當你想訓練你的數據集模型是大而不能適應一個機器,你需要使用本地庫可以分發培訓。火花ML,或Horovod這種庫的示例
3)你可以訓練許多相同版本的模型在不同的數據集一次性使用熊貓UDF。像訓練模式對許多不同的商店,營銷窄花邊、傳感器等等
4)你訓練不同的模型在相同的數據集使用parallelisation hyperparameter搜索。
06-17-2021十一25點
好的總結!是的這是我能想到的主要策略。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。