取消
顯示的結果
而不是尋找
你的意思是:

當優化表時發生錯誤。插圖的失敗。sql UTF8String收集

nagini_sitarama
新的貢獻者三世

表的統計:1125089 10月數據,所以我優化表。

image.png優化表,batchday batchday < = > =“2022-10-01”和“2022-10-31”

我得到錯誤:GC開銷限製超過

org.apache.spark.unsafe.types.UTF8String.fromBytes (UTF8String.java: 136)

我增加了我的司機和執行人工作者節點從2工人節點10工人節點32 GB的內存大小增加。

當我運行其他優化其他batchday我沒有發現任何問題。

你能告訴我為什麼UTFString.fromBytes異常在優化一個分區的數據?

3回複3

UmaMahesh1
尊敬的貢獻者三世

嗨@Nagini Sitaraman

你能試著迫使GC卸載驅動程序中的對象的內存。可以解決你的問題。

代碼:

spark.catalog.clearCache ()

(id、抽樣在spark.sparkContext._jsc.getPersistentRDDs () . items ():

rdd.unpersist ()

打印(“卸載{}抽樣”.format (id))

幹杯

nagini_sitarama
新的貢獻者三世

嗨,烏瑪,

我隻是一個優化運行sql腳本。

優化表,batchday batchday < = > =“2022-10-01”和“2022-10-31”

在這種情況下如何處理這個問題。

有93個文件出現在這批處理。

優化需要超過5小時。

Priyanka_Biswas
新的貢獻者三世
新的貢獻者三世

嗨@Nagini Sitaraman更好地理解這個問題我想要一些更多的信息。

錯誤發生在司機身邊還是執行者?

你能請分享完整的錯誤堆棧跟蹤嗎?

您可能需要檢查火花UI找到瓶頸在哪裏。如這階段造成的問題,它的內存或其它問題?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map