嗨,我有一個Pyspark工作大約需要一個小時才能完成,查看SQL選項卡時火花UI我看到這個:
這些流程上運行超過1分鍾一個60分鍾的過程。
這是那個時期神經節(最後一個快照,將調查現場競選最後一部分)我進入通過火花UI在SQL任務18,這就是我所看到的:
和細節,字段,數據庫名稱替換占位符或遵從性目的的“…”
= = = =物理計劃AppendDataExecV1 (1) (1) AppendDataExecV1參數:[num_affected_rows # 1348 l, num_inserted_rows # 1349 l], DeltaTableV2 (org.apache.spark.sql.SparkSession@7ecdf898 dbfs: / mnt / eterlake / ..... /……,一些(CatalogTable(數據庫:數據庫表:表所有者:(基本牌.....創建時間:2019年7月13日16:06:20 UTC坐最後一次訪問:未知的創造者:火花測試盒框類型:外部提供者:δ表屬性:[三角洲。lastCommitTimestamp = 1662525805000,三角洲。lastUpdateVersion = 8134,三角洲。minReaderVersion = 1,三角洲。minWriterVersion = 2]統計:0字節,6260684735行位置:dbfs: / mnt /…/位置/…Serde庫:org.apache.hadoop.hive.serde2.lazy。LazySimpleSerDe InputFormat: org.apache.hadoop.mapred。SequenceFileInputFormat OutputFormat: org.apache.hadoop.hive.ql.io。HiveSequenceFileOutputFormat模式:根……..... .....)),一些(spark_catalog .......),沒有,地圖(),org.apache.spark.sql.util.CaseInsensitiveStringMap@1f)、項目[…26日多個字段),org.apache.spark.sql.execution.datasources.v2。DataSourceV2Strategyλ8007/1446072698@7a714f29美元美元,com.databricks.sql.transaction.tahoe.catalog.WriteIntoDeltaBuilder @1df0da7e $ $立刻1美元
你看到的東西可以改善嗎?
謝謝! ! !
@Alejandro馬丁內斯
我建議你去通過這個視頻:
https://www.youtube.com/watch?v=daXEp4HmS-E
特別是通過分區,數據傾斜,泄漏。
國際海事組織利用(avg負載)應該在70%左右。試圖優化你的工作負載。
將調查!謝謝,真的是一個非常簡單的過程中,正則表達式似乎是采取更多的時間,這和AppendDataExecV1。這是另一個任務,需要38分鍾。正則表達式的邏輯是這樣的
dataframe = self.spark。讀\
。text (source_files_path) \
.withColumn (source_file, source_file_derivation)
source_file_derivation在哪裏:
source_file_derivation的= regexp_replace(反向(分裂(反向(input_file_name ()),“/”) [0]), ' % 23 ', ' # ')
添加文件名的一列數據幀(我們讀多個文件)。
謝謝!