你好,我有一個數據磚問題。Dataframe s3存儲桶中寫道的工作通常需要8分鍾完成,但是現在需要8到9個小時才能完成。有人對這種行為有一些線索嗎?
數據幀的大小約為300或400條記錄
這是一個簡單的查詢在三角洲表:
val結果=火花.table(“表”).filter () .filter by_date .drop (some_columns”) .select (a_struct_field) .withColumn listofString(“形象”,形象)。foreach {mystring = > println (s”開始寫. json為${結果}" S3)結果.filter (“struct.field美元。結果“= = =結果).coalesce (1) .write .mode (SaveMode.Overwrite) . json (“$ {filePath} / temp_ ${結果}")println (s“完成寫作. json S3 ${結果}")}
謝謝提前