取消
顯示的結果
而不是尋找
你的意思是:

致命錯誤:Python的內核是反應遲鈍

Orianh
重視貢獻二世

嘿,夥計們,

我用petastorm培訓款,首先我將火花df make_spark_convertor物化數據集,然後打開一個讀者。

雖然我隻在開始訓練子集的數據沒問題,但每件事當我用所有數據集與Python 500批我的筆記本崩潰後的內核是反應遲鈍,你們知道這發生了什麼嗎?

我看到有點類似的問題,我已把線程轉儲,但沒有理解它。

除了我得到很多未來的警告petastorm pyarrow,知道如何避免所有這些警告嗎?

25日回複25

ilvacca
新的貢獻者三世

我也注意到同樣的行為。我們如何處理這樣的問題在你的意見嗎?需要管理內存的東西……

Orianh
重視貢獻二世

嘿,夥計們,

培訓的時候我注意到兩件事可能會導致錯誤。

第一個是訓練後墜毀,GPU內存幾乎是完整的(使用nvidia重度命令檢查)。

第二個是我看到gangila指標交換集群的總內存之上。

我在用例使用make_reader petastorm讀petastorm數據集和其默認workers_count是10,而我workers_count改為4我沒有任何錯誤。

我不知道我現在真正正確的解決這個問題的方法,

想聽到你因為,

謝謝!

ilvacca
新的貢獻者三世

在我的例子中,我使用一個簡單的筆記本有OpenCV處理。還沒有優化的代碼運行在集群(我使用單個節點測試加上突觸)但是在我看來荒謬的,內核崩潰由於內存滿(我驗證這個通過集群監控麵板)。

你認為可以定義一個“麥克斯RAM使用“每個筆記本?

Orianh
重視貢獻二世

抱歉嘿@Alessio Vaccaro真的延遲反應:grinning_face_with_sweat:

我沒有找到任何文檔或任何好的資源。

我希望,如果隻有1筆記本被附加到一個集群,這個筆記本可以使用所有的內存——內存分配引發司機,當越來越多的筆記本電腦連接一些機製來處理它開始工作。

其實我看到一個磚博客,說“致命錯誤:Python的內核是反應遲鈍的。”是一個錯誤原因因為RAM

你可以看到這裏的博客:

加速你的深度學習PyTorch閃電磚,磚的博客上

匿名
不適用

嗨@orian印地語

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map