取消
顯示的結果
而不是尋找
你的意思是:

磚的工作是慢。

Raymond_Garcia
因素二世

你好,我有一個數據磚問題。Dataframe s3存儲桶中寫道的工作通常需要8分鍾完成,但是現在需要8到9個小時才能完成。有人對這種行為有一些線索嗎?

數據幀的大小約為300或400條記錄

這是一個簡單的查詢在三角洲表:

val結果=火花.table(“表”).filter () .filter by_date .drop (some_columns”) .select (a_struct_field) .withColumn listofString(“形象”,形象)。foreach {mystring = > println (s”開始寫. json為${結果}" S3)結果.filter (“struct.field美元。結果“= = =結果).coalesce (1) .write .mode (SaveMode.Overwrite) . json (“$ {filePath} / temp_ ${結果}")println (s“完成寫作. json S3 ${結果}")}

謝謝提前

1接受解決方案

接受的解決方案

你好,我能夠顯著降低的時間。我使用了優化關鍵字開始前處理。

謝謝!

在原帖子查看解決方案

3回複3

Kaniz
社區經理
社區經理

嗨@Raymond加西亞,在這裏是5件事我們看到客戶從磚可以顯著地影響性能。beplay体育app下载地址請閱讀並讓我們知道如何幫助你。

你好,謝謝,我將檢查出來,我將讓你知道。:slightly_smiling_face:

你好,我能夠顯著降低的時間。我使用了優化關鍵字開始前處理。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map