表的統計:1125089 10月數據,所以我優化表。
優化表,batchday batchday < = > =“2022-10-01”和“2022-10-31”
我得到錯誤:GC開銷限製超過
org.apache.spark.unsafe.types.UTF8String.fromBytes (UTF8String.java: 136)
我增加了我的司機和執行人工作者節點從2工人節點10工人節點32 GB的內存大小增加。
當我運行其他優化其他batchday我沒有發現任何問題。
你能告訴我為什麼UTFString.fromBytes異常在優化一個分區的數據?
嗨,烏瑪,
我隻是一個優化運行sql腳本。
優化表,batchday batchday < = > =“2022-10-01”和“2022-10-31”
在這種情況下如何處理這個問題。
有93個文件出現在這批處理。
優化需要超過5小時。