我有一個迭代算法,讀和寫一個dataframe迭代槽新分區列表,如下:
在partitions_list: p
df = spark.read.parquet (“adls_storage / p”)
df.write。
格式
(
“δ”
).mode (
“覆蓋”
).option (
“partitionOverwriteMode”
,
“動態”
)
.saveAsTable (schema.my_delta_table)
馬克斯分區數據大小2 tb。這份工作經常成功4日重新運行後的管道。經常不能由於GC開銷限製超過。在標準輸出我觀察很多GC分配失敗。請檢查屏幕快照。
像之前的執行計劃dataframes呆在司機的記憶。這是如此嗎?
有沒有一種方法每次迭代後清洗它嗎?