02-28-202205:43我
這就跟你問聲好!我開始測試配置在磚上,例如,如果兩個進程試圖避免腐蝕數據寫在同一時間:
. config (“spark.databricks.delta.multiClusterWrites.enabled”,“假”)
或者我需要更多比默認的分區
. config (“spark.databricks.adaptive.autoOptimizeShuffle。啟用”、“真正的”)
有另一個推薦的默認設置嗎?(接著調整為每個工作)
謝謝!
02-28-2022上午09:39
三角洲的表有樂觀並發控製。如果兩個進程試圖寫入相同的表是最好的同時處理但如果事務衝突就會失敗。你也可以改變隔離級別如果你想執行更多的控製。
在原帖子查看解決方案
03-01-202229我
完全正確。可以容易的確認提交是三角洲日誌中寫入單獨的文件。
關於:
和其他引發優化解決方案請注意磚視頻https://www.youtube.com/watch?v=daXEp4HmS-E
03-17-202202:35我
嗨@Alejandro馬丁內斯,情況怎麼樣?醫生幫助你不管怎樣了嗎?
03-17-202206:07我
它幫助但仍然測試不同的配置,謝謝!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。