取消
顯示的結果
而不是尋找
你的意思是:

在9.1 LTS dataframe.rdd.isEmpty()拋出錯誤

thushar
貢獻者

加載和5列成dataframe csv文件,然後添加15 +使用dataframe列。withColumn方法。

添加這些列之後,當我運行查詢df.rdd.isEmpty()——把下麵的錯誤。

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段32.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 32.0 (TID 28)(10.139.64.4執行人9):ExecutorLostFailure(執行人9退出正在運行的任務之一所致)原因:遠程RPC客戶端沒有關聯的。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌來警告消息。

知道是什麼問題嗎?

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

請檢查你的記錄,因為它可以一些其他問題。

也請檢查使用布爾值(df.head (1))。

在原帖子查看解決方案

5回複5

匿名
不適用

你好再次,@Thushar R -我很抱歉聽到你有這種困難。讓我們給社區回應的機會。提前感謝你的耐心。

Hubert_Dudek1
尊敬的貢獻者三世

請檢查你的記錄,因為它可以一些其他問題。

也請檢查使用布爾值(df.head (1))。

謝謝你的解決方案。但是為什麼這個特定的代碼不能在9.0 LTS運行時,運行在8.3沒有問題。任何想法。請參見下麵的代碼。

從pyspark.sql。功能導入點燃、坳row_number、地板、裝飾

df = spark.read。選項(“頭”,“真正的”). csv (filePath)

df2 = df.select(坳(cc)、坳(ac)、坳(“的”),\

坳(ag)、坳(“”)).distinct ()

lstOfMissingColumns = [‘col1’,‘col2’,‘col3’,‘col4’,‘col5’,‘col6’,‘col7’,‘col8’,‘col8’,‘col9’,‘col9’,‘col10’,‘col11’,‘col12’,‘col13’,

“col14”、“col15’,‘col16’,‘col17’)

對於c lstOfMissingColumns:

df2 = df2.withColumn (c,點燃("))

df2.rdd.isEmpty ()

嗨@Thushar R,

你使用相同的CSV文件嗎?

錯誤信息是

“遠程RPC客戶機沒有關聯。可能由於容器超過閾值,或網絡問題。檢查驅動程序日誌警告消息”,這可能是一個伯父錯誤。你的CSV文件有多大?你檢查執行者的9日誌嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map