01-08-2022下午09:31
你好,
我想知道如果多個執行人添加相同的蜂巢表使用saveAsTable或insertInto sparksql。會導致數據損壞嗎?我需要什麼配置啟用並發寫同樣的蜂巢表?
deltalake的同樣的問題呢?
01-10-202201:21我
蜂巢表不會這樣,作為底層數據拚花不酸兼容的格式。
然而三角洲湖是:
https://docs.delta.io/0.5.0/concurrency-control.html
你可以看到,插入不給衝突。
在原帖子查看解決方案
01-13-2022淩晨5點
嗨
謝謝你的回答。
我發現在s3 deltalake aws頁麵上有以下警告。
“警告
表從多個並發寫入相同的三角洲火花司機可能導致數據丟失。”
對於單個驅動程序與多個執行器,將並發寫入相同的表是一個問題嗎?
01-14-2022上午12:03
沒有因為這是火花是如何工作的。
驅動程序定義了哪些工人寫什麼和速度發生了什麼。
這也是多個司機的原因(讀多個火花程序)可以給彼此衝突的司機不知道他們在做什麼。
01-10-2022下午09:04
嗨@Weide張,@ (werner)(客戶)的回複回答了你的問題?
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。