嘿,夥計們,
培訓的時候我注意到兩件事可能會導致錯誤。
第一個是訓練後墜毀,GPU內存幾乎是完整的(使用nvidia重度命令檢查)。
第二個是我看到gangila指標交換集群的總內存之上。
我在用例使用make_reader petastorm讀petastorm數據集和其默認workers_count是10,而我workers_count改為4我沒有任何錯誤。
我不知道我現在真正正確的解決這個問題的方法,
想聽到你因為,
謝謝!
抱歉嘿@Alessio Vaccaro真的延遲反應
我沒有找到任何文檔或任何好的資源。
我希望,如果隻有1筆記本被附加到一個集群,這個筆記本可以使用所有的內存——內存分配引發司機,當越來越多的筆記本電腦連接一些機製來處理它開始工作。
其實我看到一個磚博客,說“致命錯誤:Python的內核是反應遲鈍的。”是一個錯誤原因因為RAM
你可以看到這裏的博客: