取消
顯示的結果
而不是尋找
你的意思是:

是否可以寫表來使用插入模式三角洲湖?會比覆蓋efficiant嗎?

Direo
貢獻者
1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

嗨@Direo Direo,

回答1:——你可以插入數據從源表,視圖,或DataFrame目標三角洲表通過使用SQL合並操作。三角洲湖支持插入、更新和刪除在合並,和它支持擴展語法之外的SQL標準促進先進的用例。

假設您有一個名為people10mupdates源表或一個源路徑在/ tmp /δ/ people-10m包含新數據更新目標表名為people10m或在/ tmp /δ/ people-10m目標路徑。

其中一些新記錄可能已經出現在目標數據。

合並的新數據,你想更新行人的id已經存在並插入新行,沒有匹配的id。

你可以運行以下:

並入people10m people10m上使用people10mupdates。id = people10mupdates。當匹配然後更新設置id = people10mupdates id。id, firstName = people10mupdates。firstName, middleName = people10mupdates。middleName lastName = people10mupdates。lastName、性別= people10mupdates。性別、生日= people10mupdates。生日,ssn = people10mupdates。ssn,工資= people10mupdates。薪水不匹配時然後插入(id、firstName middleName、lastName、性別、出生年月日,ssn,工資)(people10mupdates值。id, people10mupdates。people10mupdates firstName。middleName people10mupdates。people10mupdates lastName。性別、people10mupdates。生日,people10mupdates。people10mupdates ssn。工資)

語法細節,請參閱

看到三角洲湖API參考Scala的Java、Python語法細節。

回答2:-

在磚三角洲細粒度更新功能簡化了你如何建立你的大數據管道。

你不再需要編寫複雜的邏輯覆蓋表和克服缺乏快照隔離。

使用細粒度更新,您的管道也會更有效率,因為你不需要閱讀和覆蓋整個表。

與不斷變化的數據,另一個關鍵能力要求是能夠回滾的壞寫道。

磚三角洲還提供回滾功能時間旅行的特性,如果你做一個壞的合並,可以輕鬆地回滾。

閱讀更多(Azure|AWS)對細粒度更新功能。查看功能,注冊一個免費試用的磚和嚐試。

在原帖子查看解決方案

3回複3

Hubert_Dudek1
尊敬的貢獻者三世

@Direo Direo,是的,你使用合並的語法https://docs.delta.io/latest/delta-update.html

比覆蓋效率更高,如果你想要隻更新數據的一部分,但你需要考慮什麼更新的邏輯覆蓋是易於管理。

Kaniz
社區經理
社區經理

嗨@Direo Direo,

回答1:——你可以插入數據從源表,視圖,或DataFrame目標三角洲表通過使用SQL合並操作。三角洲湖支持插入、更新和刪除在合並,和它支持擴展語法之外的SQL標準促進先進的用例。

假設您有一個名為people10mupdates源表或一個源路徑在/ tmp /δ/ people-10m包含新數據更新目標表名為people10m或在/ tmp /δ/ people-10m目標路徑。

其中一些新記錄可能已經出現在目標數據。

合並的新數據,你想更新行人的id已經存在並插入新行,沒有匹配的id。

你可以運行以下:

並入people10m people10m上使用people10mupdates。id = people10mupdates。當匹配然後更新設置id = people10mupdates id。id, firstName = people10mupdates。firstName, middleName = people10mupdates。middleName lastName = people10mupdates。lastName、性別= people10mupdates。性別、生日= people10mupdates。生日,ssn = people10mupdates。ssn,工資= people10mupdates。薪水不匹配時然後插入(id、firstName middleName、lastName、性別、出生年月日,ssn,工資)(people10mupdates值。id, people10mupdates。people10mupdates firstName。middleName people10mupdates。people10mupdates lastName。性別、people10mupdates。生日,people10mupdates。people10mupdates ssn。工資)

語法細節,請參閱

看到三角洲湖API參考Scala的Java、Python語法細節。

回答2:-

在磚三角洲細粒度更新功能簡化了你如何建立你的大數據管道。

你不再需要編寫複雜的邏輯覆蓋表和克服缺乏快照隔離。

使用細粒度更新,您的管道也會更有效率,因為你不需要閱讀和覆蓋整個表。

與不斷變化的數據,另一個關鍵能力要求是能夠回滾的壞寫道。

磚三角洲還提供回滾功能時間旅行的特性,如果你做一個壞的合並,可以輕鬆地回滾。

閱讀更多(Azure|AWS)對細粒度更新功能。查看功能,注冊一個免費試用的磚和嚐試。

Kaniz
社區經理
社區經理

嗨@Direo Direo,上麵的建議幫助你嗎?你能寫表來使用插入模式三角洲湖?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map