我試圖拯救dataframe經過一係列的數據操作使用Udf函數差值表。我試著使用這個代碼
(
df
.write
.format(δ)
.mode(覆蓋)
.option (“overwriteSchema”,“真正的”)
.saveAsTable (“output_table”)
)
但這是超過2小時。所以我的dataframe轉換為sql當地臨時視圖,保存dfδ從臨時表視圖,這個工作的一個筆記本(14分鍾),但其他筆記本這也是花大約2小時寫三角洲表。不確定為什麼這些事情會發生在一個非常小的數據集。任何解決方案都是感激。
代碼:
df.createOrReplaceTempView (“sql_temp_view”)
%的sql
刪除表如果存在default.output_version_2;
創建表default.output_version_2
select * from sql_temp_view
因為數據太低了,試著重新分區數據,然後再編寫使用重新分區或合並。
我也有類似的問題。分區是1的表級和轉換隻appyling日期、小數(20,2). .使用withColumn等等。5工作節點。
80890花10分鍾時間記錄。——如何提高性能和可能的方法來找出它是什麼花時間嗎?
35 MB