取消
顯示的結果
而不是尋找
你的意思是:

dataframe需要異常長時間保存為三角洲表使用sql與30 k行一個非常小的數據集。它大概需要2小時。有解決這個問題嗎?

suresh1122
新的貢獻者三世

我試圖拯救dataframe經過一係列的數據操作使用Udf函數差值表。我試著使用這個代碼

(

df

.write

.format(δ)

.mode(覆蓋)

.option (“overwriteSchema”,“真正的”)

.saveAsTable (“output_table”)

)

但這是超過2小時。所以我的dataframe轉換為sql當地臨時視圖,保存dfδ從臨時表視圖,這個工作的一個筆記本(14分鍾),但其他筆記本這也是花大約2小時寫三角洲表。不確定為什麼這些事情會發生在一個非常小的數據集。任何解決方案都是感激。

代碼:

df.createOrReplaceTempView (“sql_temp_view”)

%的sql

刪除表如果存在default.output_version_2;

創建表default.output_version_2

select * from sql_temp_view

9回複9

UmaMahesh1
尊敬的貢獻者三世

因為數據太低了,試著重新分區數據,然後再編寫使用重新分區或合並。

Sreekanth_N
新的貢獻者二世

我也有類似的問題。分區是1的表級和轉換隻appyling日期、小數(20,2). .使用withColumn等等。5工作節點。

80890花10分鍾時間記錄。——如何提高性能和可能的方法來找出它是什麼花時間嗎?

ajaypanday6781
尊敬的貢獻者二世

嗨@Suresh Kakarlapudi你的文件大小是什麼? ?

suresh1122
新的貢獻者三世

35 MB

Jfoxyyc
價值貢獻

是你的磚工作區設置vnet注入的機會嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map