這就跟你問聲好!我目前這是一個古老的通用模板與補償優化磚火花的執行時間,你能幫我知道這仍然適合v10-11-12或者如果有新的建議嗎?也許這是使我過程慢但我確實沒有任何棄用警告或建議在創建會話。
謝謝!
spark_session = SparkSession。構建器\
. config(“火花。投機”、“假”)\
. config (“sparkyarn。maxAppAttempts ', ' 1 ') \
. config (“spark.databricks.delta.preview.enabled”,“真正的”)\
. config (“spark.databricks.delta.merge.joinBasedMerge.enabled”,“真正的”)\
config (“spark.databricks.delta.multiClusterWrites.enabled”、“假”)\
. config (“spark.databricks.adaptive.autoOptimizeShuffle。啟用”、“真實”)\
.getOrCreate ()
@Alejandro馬丁內斯:
這就跟你問聲好!你的模板配置似乎是一個很好的起點SparkSession磚。然而,也有一些新的建議,你可以考慮磚v10-11-12運行時版本。這裏有一些建議:
這是一個更新的模板,包括這些建議:
spark_session = SparkSession。構建器\.config("spark.databricks.delta.retentionDurationCheck.enabled", "false") \ .config("spark.sql.shuffle.partitions", "500") \ .config("spark.databricks.delta.optimizeWrite.enabled", "true") \ .config("spark.databricks.delta.autoCompact.enabled", "true") \ .config("spark.databricks.delta.join.preferBroadcastHashJoin", "true") \ .config("spark.sql.adaptive.enabled", "true") \ .getOrCreate()
請注意,這些建議可能不是適合所有用例,所以你應該評估他們根據您的特定需求和工作負載特征。