11-17-202201:47點
我已經得到這個錯誤偶爾。我加載數據集和訓練一個模型在筆記本中使用數據集。有時,有時它不工作。我見過類似的帖子,提到所有解決方案,日誌輸出大小限製,spark.network.timeout配置,創建一個臨時的視圖。沒有從根本上解決問題。有時它會工作沒有任何問題,有時會得到上麵的錯誤。但是我很確定沒有內存問題,我有足夠的集群內存分配。你能解釋是什麼導致這個問題?尤其是我不明白為什麼隻休息一段時間但並非總是如此。所以很難查明問題。 Thank you!
11-17-202203:27點
@Leo包你看到這個問題當你得到不同大小的數據集,或者你的數據集的大小是一樣的。如果你看到的問題是由於更大的數據集,請檢查下麵的鏈接並試圖增加分區大小磚火花Pyspark抽樣再分配——“遠程RPC客戶端沒有關聯。可能由於容器……
11-17-202204:27點
謝謝你的回複!每當我發生使用不同大小的數據集。但它不是,因為數據集較大,即使是較小的問題。隻是好奇有經驗法則為每個分區的大小可能工作嗎?還我仍然試著調整分區大小和有時,有時它不工作。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。