12-21-202206:47點
我運行一個擁抱在GPU集群(g4dn臉模型。超大,16 gb的內存,4核)。我在四個不同的筆記本電腦運行相同的模型與不同的數據源。我創建了一個工作流運行一個模型。這些筆記本單獨運行很好,但在工作流設置,它給了我一個致命錯誤:Python內核是反應遲鈍(Python程序退出,退出代碼137 (SIGKILL:死亡)。這可能是由一個伯父錯誤引起的。檢查你的命令的內存使用)。
12-21-2022十一25點
這可能是由於緩存,可以使用一些集群當你重用的內存數量。
隻是試著提高你的記憶力和/或優化你的代碼。
01-04-202305:54點
我不使用大一批數據過程中。隻是五個文本文檔不到每個大約1000個字符。我利用GPU運行變壓器模型。所以模型本身並不是真的在CPU上運行。這就是為什麼它是奇怪的一個伯父錯誤的被處理的數據量更少的CPU。
12-22-202201:35我
嗨@Koliya Wedanage,我們一直沒有收到你自從上次反應@Daniel薩哈,我檢查看看他們的建議幫助你。
否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。
同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。
12-27-2022於下午
執行程序的日誌,您可以檢查,以縮小錯誤如果你想,但從技術上講,這是一個伯父和增加集群的資源將緩解這一問題
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。