嗨@Direo Direo,
回答1:——你可以插入數據從源表,視圖,或DataFrame目標三角洲表通過使用SQL合並操作。三角洲湖支持插入、更新和刪除在合並,和它支持擴展語法之外的SQL標準促進先進的用例。
假設您有一個名為people10mupdates源表或一個源路徑在/ tmp /δ/ people-10m包含新數據更新目標表名為people10m或在/ tmp /δ/ people-10m目標路徑。
其中一些新記錄可能已經出現在目標數據。
合並的新數據,你想更新行人的id已經存在並插入新行,沒有匹配的id。
你可以運行以下:
並入people10m people10m上使用people10mupdates。id = people10mupdates。當匹配然後更新設置id = people10mupdates id。id, firstName = people10mupdates。firstName, middleName = people10mupdates。middleName lastName = people10mupdates。lastName、性別= people10mupdates。性別、生日= people10mupdates。生日,ssn = people10mupdates。ssn,工資= people10mupdates。薪水不匹配時然後插入(id、firstName middleName、lastName、性別、出生年月日,ssn,工資)(people10mupdates值。id, people10mupdates。people10mupdates firstName。middleName people10mupdates。people10mupdates lastName。性別、people10mupdates。生日,people10mupdates。people10mupdates ssn。工資)
語法細節,請參閱
看到三角洲湖API參考Scala的Java、Python語法細節。
回答2:-
在磚三角洲細粒度更新功能簡化了你如何建立你的大數據管道。
你不再需要編寫複雜的邏輯覆蓋表和克服缺乏快照隔離。
使用細粒度更新,您的管道也會更有效率,因為你不需要閱讀和覆蓋整個表。
與不斷變化的數據,另一個關鍵能力要求是能夠回滾的壞寫道。
磚三角洲還提供回滾功能時間旅行的特性,如果你做一個壞的合並,可以輕鬆地回滾。
@Direo Direo,是的,你使用合並的語法https://docs.delta.io/latest/delta-update.html。
比覆蓋效率更高,如果你想要隻更新數據的一部分,但你需要考慮什麼更新的邏輯覆蓋是易於管理。
嗨@Direo Direo,
回答1:——你可以插入數據從源表,視圖,或DataFrame目標三角洲表通過使用SQL合並操作。三角洲湖支持插入、更新和刪除在合並,和它支持擴展語法之外的SQL標準促進先進的用例。
假設您有一個名為people10mupdates源表或一個源路徑在/ tmp /δ/ people-10m包含新數據更新目標表名為people10m或在/ tmp /δ/ people-10m目標路徑。
其中一些新記錄可能已經出現在目標數據。
合並的新數據,你想更新行人的id已經存在並插入新行,沒有匹配的id。
你可以運行以下:
並入people10m people10m上使用people10mupdates。id = people10mupdates。當匹配然後更新設置id = people10mupdates id。id, firstName = people10mupdates。firstName, middleName = people10mupdates。middleName lastName = people10mupdates。lastName、性別= people10mupdates。性別、生日= people10mupdates。生日,ssn = people10mupdates。ssn,工資= people10mupdates。薪水不匹配時然後插入(id、firstName middleName、lastName、性別、出生年月日,ssn,工資)(people10mupdates值。id, people10mupdates。people10mupdates firstName。middleName people10mupdates。people10mupdates lastName。性別、people10mupdates。生日,people10mupdates。people10mupdates ssn。工資)
語法細節,請參閱
看到三角洲湖API參考Scala的Java、Python語法細節。
回答2:-
在磚三角洲細粒度更新功能簡化了你如何建立你的大數據管道。
你不再需要編寫複雜的邏輯覆蓋表和克服缺乏快照隔離。
使用細粒度更新,您的管道也會更有效率,因為你不需要閱讀和覆蓋整個表。
與不斷變化的數據,另一個關鍵能力要求是能夠回滾的壞寫道。
磚三角洲還提供回滾功能時間旅行的特性,如果你做一個壞的合並,可以輕鬆地回滾。