我理解如果配置使用SparkSession.bu……-磚- 6729

alejandrofm · ‎03-30-2023

這就跟你問聲好！我目前這是一個古老的通用模板與補償優化磚火花的執行時間,你能幫我知道這仍然適合v10-11-12或者如果有新的建議嗎?也許這是使我過程慢但我確實沒有任何棄用警告或建議在創建會話。

謝謝!

spark_session = SparkSession。構建器\

. config(“火花。投機”、“假”)\

. config (“sparkyarn。maxAppAttempts ', ' 1 ') \

. config (“spark.databricks.delta.preview.enabled”,“真正的”)\

. config (“spark.databricks.delta.merge.joinBasedMerge.enabled”,“真正的”)\

config (“spark.databricks.delta.multiClusterWrites.enabled”、“假”)\

. config (“spark.databricks.adaptive.autoOptimizeShuffle。啟用”、“真實”)\

.getOrCreate ()

匿名 · ‎04-02-2023

@Alejandro馬丁內斯:

這就跟你問聲好！你的模板配置似乎是一個很好的起點SparkSession磚。然而,也有一些新的建議,你可以考慮磚v10-11-12運行時版本。這裏有一些建議:

使用磚1.0.0或更高——磚δ預覽版以來已經更新和改進。現在推薦使用δ1.0.0版或更高版本,其中包括許多穩定性和性能改進。
配置火花洗牌分區配置分區的數量在火花shuffle可以顯著提高火花的性能的工作。你可以設置調整分區的數量根據你的數據的大小和集群的大小。
啟用自動合並的小文件啟用自動合並小文件可以幫助減少小文件的數量在你的三角洲表,可以提高查詢性能。
使用最優文件格式,不同的文件格式有不同的性能特征。例如,δ表優化性能和可靠性,而拚花是存儲效率的優化。考慮使用的文件格式,最好的滿足您的需要。
使用自適應查詢執行——自適應查詢執行一個功能,可以自動調整查詢的執行計劃基於數據和集群的特點。它可以提高你的火花的性能在許多情況下工作。

這是一個更新的模板,包括這些建議:

spark_session = SparkSession。構建器\.config("spark.databricks.delta.retentionDurationCheck.enabled", "false") \ .config("spark.sql.shuffle.partitions", "500") \ .config("spark.databricks.delta.optimizeWrite.enabled", "true") \ .config("spark.databricks.delta.autoCompact.enabled", "true") \ .config("spark.databricks.delta.join.preferBroadcastHashJoin", "true") \ .config("spark.sql.adaptive.enabled", "true") \ .getOrCreate()

請注意,這些建議可能不是適合所有用例,所以你應該評估他們根據您的特定需求和工作負載特征。

alejandrofm · ‎04-02-2023

嗨,會配置!隻有一個問題,當你說關於第一點“使用磚δ1.0.0或更高”。

你是什麼意思?我應該升級表manualny嗎?沒有找到相關文檔。

謝謝!

磚

如果我使用的配置SparkSession理解。建築商仍為磚10 +的意義