虛擬事件+現場問答
作為一個開放格式存儲層,三角洲湖提供可靠性、安全性和性能數據湖泊。beplay体育app下载地址客戶看過48 x更快的數據處理,導致快50%時間洞察力,實施後三角洲湖。
看現場演示和學習如何三角洲湖:
Himanshu拉賈
產品管理
磚
山姆Steiny
產品營銷
磚
布蘭諾Heintz
產品營銷
磚
負責人芭芭拉Eckman
軟件架構師
康卡斯特公司
山姆Steiny:你好,歡迎來到磚事件,三角洲湖,你lakehouse的基礎。我的名字是山姆Steiny和我在磚產品營銷工作,特別關注數據工程和三角洲湖上。我今天很高興來到這裏。我是今天的司儀的事件,和我將指導你通過今天的會議。越來越多,我們看到這個詞中引用lakehouse科技博客、新聞事件和思想領導。和在磚超出了我們的工作,組織各行業真的越來越轉向lakehouse作為未來的想法統一分析,數據科學和機器學習。
山姆Steiny:在今天的事件中,我們會看到三角洲湖的概述,這是為您的數據安全的數據存儲和管理層湖真的lakehouse的基礎形式。我們會看到一個演示三角洲湖的行動,我們會聽到康卡斯特杠杆三角洲湖將可靠性、性能和安全數據。我們會完成今天的活動現場問和答:所以,要準備好解決你的問題,我們會盡力回答盡可能多。所以,在我們開始之前隻是一些快速管家,今天的會議記錄。因此,就可以在任何注冊的需求。
山姆Steiny:還有,如果你有任何問題在整個事件中,請將它們添加到Q和一盒。我們將盡力回答在實時。但是我們也會回答剩下的問題以及任何額外的現場問答的會話。現在在我們開始我們的演講者,我想分享一個快速概述三角洲湖的視頻中,我們最近推出了。這將給你一個高水平的理解什麼是三角洲湖,Himanshu三角洲湖產品經理是誰之前,將進入更詳細的關於三角洲湖以及它如何lakehouse的基礎形式。
今天演講3:企業有能力收集比以往更多的數據。數據包含有價值的洞察你的生意和你的顧客,如果你能解開它。beplay体育app下载地址大部分組織都有發現,這不是簡單的任務將數據轉化為洞察力。今天的數據有多種格式,視頻、音頻和文本。數據湖泊已成為事實上的解決方案,因為他們可以存儲不同的格式以較低的成本和企業鎖定在一個特定的供應商不喜歡數據倉庫。但傳統數據湖泊也有挑戰,湖泊積累數據在不同的格式,保持可靠的數據是具有挑戰性的,並且會導致不準確的查詢結果。
發言人3:不斷增長的數據量也影響性能,降低分析和決策,以及一些審計和管理特性數據湖泊很難妥善保護和治理。所有的這些挑戰,多達73%的公司未使用數據分析和決策和價值沒有實現。三角洲湖解決這些挑戰。三角洲湖是一個數據存儲和管理層數據湖,使您在您的組織規模的見解與真理的一個可靠的單一來源的所有數據工作負載,批處理和流,提高生產力通過優化與性能特性,如高級索引速度規模和模式執行。
發言人3:操作靈活性的一個開源環境存儲在Apache拚花格式和降低風險,快速、準確地更新數據在你的數據湖合規通過審計日誌記錄和維護更好的數據治理。通過與三角洲湖解鎖您的數據,您可以極大地簡化數據工程通過執行ETL過程直接在數據湖。立即作出新的實時數據可用於數據分析,數據科學和機器學習,獲得信心在你能夠可靠地滿足GDPR和CCPA合規標準。
發言人3:三角洲湖上磚帶來的可靠性、性能和安全性數據都在一個開放的格式,使其完美的具有成本效益的高度可伸縮的lakehouse架構的基礎。三角洲湖,開放、可靠、高性能的lakehouse和安全的基礎。
山姆Steiny:太好了。與高級視圖,所以,現在你了解三角洲湖,現在我要把它交給Himanshu拉賈,誰是產品經理在磚三角洲湖。他要做深入探討了三角洲湖並解釋它如何真正使lakehouse為我們的客戶。beplay体育app下载地址到你,Himanshu。
Himanshu拉:謝謝你,山姆。我超級興奮來到這裏,和你談談三角洲湖為lakehouse以及為什麼它是正確的基礎。在今天的會議中,我將介紹構建數據分析堆棧的挑戰而lakehouse是唯一證明未來的解決方案。三角洲湖是什麼?和為什麼它是最好的基金會lakehouse嗎?布倫納,將進入最精彩的部分會話和做一個演示。會議結束後,你將有足夠的上下文,鏈接到支持材料開始構建第一個數據。
Himanshu拉賈:每家公司都感覺拉成為一個公司的數據,因為當大量數據應用於簡單的模型,用例的改進指數。在磚,我們整個重點是幫助客戶應用數據的難題。beplay体育app下载地址我會挖兩個客戶的例子,康卡斯特和全國。beplay体育app下载地址康卡斯特的媒體公司是一個很好的例子已經成功地采用數據和機器學習為觀眾創造新的經驗,有助於提高滿意度和保留。
Himanshu拉賈:他們已經建立了一個語音遙控器,允許你進入遠程說話,問一個問題,它會提供一些真正相關的結果,利用自然語言處理和深度學習。他們建造的磚上的平台。Beplay体育安卓版本全國最大的保險公司之一在美國全國範圍內的爆炸性增長數據可用性和增加市場競爭挑戰提供更好的價格給客戶。beplay体育app下载地址與數以百萬計的全國保險記錄分析下遊毫升意識到他們遺留批量分析過程是緩慢和不準確,提供有限的見解來預測請求的頻率和嚴重程度。
Himanshu拉賈:磚,他們已經能夠使用深度學習模型擴展到提供更準確的價格預測導致更多的收入從索賠。因為這個潛力,這並不奇怪,83%的ceo認為人工智能是一個戰略重點。根據麻省理工學院斯隆管理評論發表的一份報告,或者Gartner預測AI將產生近萬億美元在隻有幾年的業務價值。但它是非常困難的。Gartner說,85%的大數據項目將會失敗。風險擊敗發表了一份報告,說87%的數據科學項目從未投入生產。因此,盡管有些公司成功取得大多數仍然掙紮。
Himanshu拉:那麼,這個故事開始於數據倉庫中,很難相信。很快就會迎來40歲生日。數據倉庫是在80年代,特地為BI和報告。加班他們已經成為必不可少的,今天地球上每一個企業都有許多人。然而,他們沒有建立現代數據用例。他們沒有支持數據像視頻或音頻和文本。現代用例的數據集,是至關重要的。它必須非常結構化數據隻可查詢的SQL。因此,沒有可行的支持數據科學或機器學習。此外,不支持實時流媒體。 They are great for batch processing, but either do not support streaming or can be cost prohibitive.
Himanshu拉:因為他們是封閉的和專有的係統,他們迫使你鎖定你的數據,所以你不能輕易移動數據。所以,今天這一切的結果是,大多數組織將首先將他們所有的數據存儲在湖泊和塊存儲的數據,然後轉移到數據倉庫的子集。然後他們認為潛在的數據湖泊可能是我們所有問題的答案。數據湖泊是在大約10年前,他們的確是偉大的因為他們可以處理所有數據。和他們有好的數據科學和機器學習用例。和數據湖泊作為一個偉大的起點對於很多企業。
Himanshu拉賈:然而,他們不能夠支持數據倉庫或BI的用例。湖泊的數據實際上是更複雜的比數據倉庫的建立。我們的倉庫有很多熟悉的支持語義像資產交易。與數據湖泊,你隻是處理文件。所以,這些抽象不提供,你真的必須建立他們自己。他們非常複雜的設置。甚至在你所有的,性能不是很好。你隻是處理文件,最後。在大多數情況下,客戶最終得到大beplay体育app下载地址量的小文件,甚至最簡單的查詢要求你列出所有這些文件。這需要時間。
Himanshu拉賈:最後,當涉及到可靠性,它們也不是那麼好。我們有更多的數據在數據湖泊,然後倉庫,但數據可靠嗎?我能保證模式保持不變?很容易的分析師一起合並不同的模式。由於所有這些問題,數據湖泊的沼澤變成了這些不可靠的數據,所有數據,但它是非常困難的任何意義。可以理解,所以,在沒有更好的選擇,我們看到的大多數組織共存的策略。
Himanshu拉:那麼,這是一個數據沼澤的樣子。有很多不同的工具權力架構所需的業務單位或組織。這是一個大量的不同的開源工具,你必須連接。數據倉庫棧,在左邊,你經常處理專用的數據格式。如果你想啟用高級用例,您必須將數據移到其他堆棧。它最終被昂貴和資源集約化管理。結果成什麼?由於係統是孤立的,團隊也成為孤立的。溝通減慢,阻礙創新和速度。
Himanshu拉賈:不同的團隊經常得到不同版本的真相。結果數據的多個副本,沒有一致的安全治理模型,封閉係統,斷開連接,更少的生產數據團隊。那麼,我們如何得到兩全其美?我們想要一些東西從數據倉庫,我們想要一些東西從數據湖泊。我們想要的數據倉庫的性能和可靠性,我們希望數據的靈活性和可伸縮性的湖泊。這就是我們稱為lakehouse範式。這裏的想法是,數據在數據湖,但現在,我們要添加一些組件,以便我們可以做所有的BI和報告從倉庫和數據科學和機器學習從湖泊和也支持數據流分析。所以,讓我們建立一個lakehouse。有什麼事情我們需要建立一個lakehouse嗎?
Himanshu拉:我們說,我們真的希望我們所有的數據在一個可伸縮的存儲層。我們想要一個統一的平台上,我們可以做多個用例Beplay体育安卓版本。我們可以實現多個用例。所以,我們需要某種事務層的數據存儲層。所以,你真正需要的是類似資產合規,所以當你寫數據,它要麼完全成功或完全失敗,事情是一致的。事務處理層是數據結構。然後我們談論的其他需求是性能。所以,支持不同類型的用例,我們需要非常快。我們有很多我們想要的數據。有數據引擎,這是一個高性能的磚已經創建的查詢引擎為了支持不同類型的用例,不管它是SQL,數據科學、ETL、BI報告,流媒體,所有這些東西的引擎讓它真的,非常快。
Himanshu拉:那麼,讓我們做一個深湖潛水是什麼數據。數據湖是一個開放、可靠、高性能、安全的數據存儲和管理為您的數據層的湖泊,使您能夠創造出一個真正的單一來源的真理。因為它是建立在一個預算,你可以構建高性能的數據管道清潔你的數據從原始注入聚合物業務水平。鑒於開放格式,它可以讓你避免不必要的複製和專有的鎖定。最終,數據提供了湖,可靠性、性能和安全,你需要解決你的下行數據的用例。接下來,我將討論這些數據湖的好處。首先受益,得到數據湖是高質量的可靠數據分析堆棧。
Himanshu拉:我來談談三個關鍵東西。第一個是資產交易。第二個是進化模式執行和模式。第三,就是統一的批處理和流。在資產交易中,δ雇傭了一個全有或全無的資產交易的方法來保證你所做的任何操作數據湖上完全成功或被中止,以便它可以重新運行。模式執行三角洲湖上使用模式驗證正確,這意味著我們所有的新權利表檢查兼容性與目標表模式在正確的時間。如果模式不兼容,三角洲湖完全取消交易,沒有數據寫入和提出了一個異常,讓用戶了解不匹配。
Himanshu拉:我們最近推出了功能也做模式演化,可以動態演變模式作為數據進來尤其是在半結構化或非結構化數據的情況。你可能不知道的數據類型是什麼,甚至在很多情況下,列進來是什麼。第三件事,我想講的是統一批處理和流。δ是能夠處理批處理和流數據,同時包括能力,寫批處理和流相同的數據表。三角洲湖直接與火花結構化集成流低延遲更新。
Himanshu拉:這不僅導致一個更簡單的係統架構不需要構建一個λ架構了。結果還在更短的時間內從數據攝取到查詢結果。三角洲湖的第二個關鍵優點是性能、閃電、快速的性能。有兩個方麵來表現數據分析堆棧。一個是數據如何存儲,然後另一個是在查詢性能,在運行時間。所以,讓我們來談談他們的數據是如何存儲和三角洲如何優化excel的數據存儲格式。三角洲附帶即用功能存儲的數據優化查詢。等功能的排序數據自動結構化以及多個維度的快速查詢性能就是其中之一。三角洲也有數據跳過,三角洲維護文件數據,這樣的數據子集相關查詢使用而不是整個表。
Himanshu拉:我們不需要去讀所有的文件。基於統計數據文件可以跳過。然後自動最優化,優化是一組功能,自動壓縮小文件到更少的大文件,以便查詢性能是偉大的。付小暫停期間寫來抵消,給表在requering真的大有好處。這就是關於數據存儲的一部分。現在,讓我們來談談三角洲引擎,它就會起作用,當你實際查詢數據。數據引擎三個關鍵組件來提供超快的性能,光子,查詢優化器和緩存。光子是一個本機矢量發動機,完全兼容Apache火花,構建加速所有結構化和半結構化的工作負載超過20 x 2.4相比,火花。
Himanshu拉賈:第二個δ引擎是查詢優化器的重要組成部分。查詢優化器擴展了火花的基於成本的優化器和自適應查詢執行先進的統計提供18 X更快的查詢性能比火花3.0對於數據倉庫工作負載。然後第三三角洲引擎緩存的重要組成部分。δ引擎自動緩存輸入輸出數據,轉碼成更多的CPU有效後備利用NBMESSTs提供快5倍性能表掃描比火花3. o。它還包括第二個緩存查詢結果立即提供任何後續的結果毫無價值的東西。這提高了重複查詢的性能,像儀表盤,底層表不經常改變。
Himanshu拉:那麼,讓我談談第三三角洲湖的主要好處之一,就是在規模提供安全性和遵從性。三角洲湖降低風險,可以快速、準確地更新你的數據中的數據湖,遵守法規更喜歡GDPR和維護數據治理通過審計日誌記錄。讓我談談兩個特定功能,穿越和穩定的和基於角色的訪問控製。穿越三角洲自動版本的大數據存儲在你的數據湖和使您能夠訪問任何數據的曆史版本。這個時態數據管理簡化你的數據管道便於審計、回滾數據以防意外壞寫或刪除和繁殖實驗和報告。
Himanshu拉:你的組織終於可以標準化清潔集中式版本,在自己的雲存儲大數據存儲庫為您分析。第二個功能我想講的是,表和基於角色的訪問控製。湖的數據,您可以通過編程方式grant和revoke訪問你的數據基於特定的工作區或角色來確保用戶隻能訪問你想讓他們的數據。合作夥伴的Databrick廣泛的生態係統。beplay体育app下载地址客戶可以支持各種各樣的安全性和治理功能基於他們個人的需要。
Himanshu拉賈:最後,但三角洲湖的一個最重要的好處是,它是開放和敏捷。三角洲湖是一個開放的格式與其他開源技術,避免廠商鎖定開放整個社區和生態係統的工具。三角洲湖的所有數據都存儲在一個開放的Apache拚花格式,允許數據被任何兼容的讀者閱讀。開發人員可以使用他們與現有數據管道的三角洲湖用最小的更改,因為它是完全兼容火花。最常用的大數據處理引擎。三角洲湖也支持SQL DML,即用使客戶SQL工作負載遷移到三角洲簡單和容易。beplay体育app下载地址
Himanshu拉:那麼,讓我們來談談我們看到客戶如何利用三角洲湖的用例,其中主要是提高數據管道、做大規模beplay体育app下载地址ETL,統一批,直接與Apache火花結構化集成流和流媒體運行批處理和流媒體的工作負載在做λ的體係結構中,在您的數據做BI湖三角洲引擎,超級快,準備好性能。你不需要選擇一個湖和一個數據倉庫的數據。lakehouse我們談過,你可以直接做BI數據湖,然後用標準滿足監管需求GDPR通過保持的記錄曆史數據變化。和這些用戶是誰?
Himanshu拉賈:湖的數據被一些世界上最大的財富100強公司。我們有客戶像康卡beplay体育app下载地址斯特,Wirecomm,康泰納仕,McAfee,埃德蒙茲。事實上,磚的所有數據分析使用數據的湖。所以我想隻是深度潛水,想討論星巴克用例隻給你一個想法,我們的客戶如何使用數據湖的生態係統。beplay体育app下载地址星巴克今天需求預測和人性化的經驗他們的客戶在他們的應用程序。和他們的架構實際上是難以處理pb的數據調整的下遊ML和分析,和他們需要一個可伸縮的平台來支持跨組織的多個beplay体育app下载地址用例。Beplay体育安卓版本
Himanshu拉賈:Azure磚和三角洲湖,他們的數據工程師能夠構建管道支持批處理和實時工作負載在同一平台。Beplay体育安卓版本他們使他們的數據科學團隊融合不同的數據集,創建新的模型,改善客戶體驗。最重要的是,數據處理性能已顯著改善允許他們在幾分鍾內部署環境和提供見解。讓我總結總結數據湖可以幫你做什麼,為什麼它是正確的為lakehouse打下基礎。與三角洲湖,我們發現可以提高分析和數據科學和機器學習在你的組織通過允許團隊合作,確保他們正在可靠的數據來提高他們做決定的速度。
Himanshu拉賈:可以簡化數據工程,減少基礎設施和維護成本與最好的價格性能,您可以啟用一個多重雲安全的基礎設施平台和數據湖。Beplay体育安卓版本那麼,你如何開始數據湖?其實很簡單,如果你有一個磚部署已經在Azure或AWS,現在GCP如果你和DBR集群部署,磚的正確的時間發布版本8.0或更高版本,你實際上不需要做任何事。三角洲現在所有創造性的表和數據的默認格式框架api。但是我們也有足夠的資源供您試用產品並學習。
Himanshu拉賈:其實很多有趣的湖和部署您的第一個數據隻是建立一個很酷的儀表板使用筆記本。如果你沒有嚐試過磚才能注冊一個免費試用帳戶,然後您可以按照我們的入門指南。布倫納,不久將做一個演示展示我們談到的功能。所以,交給你,山姆。
山姆Steiny:太棒了。謝謝你,Himanshu。這是偉大的。現在,在過去的階段到布倫納Heintz,布蘭諾將通過演示,讓我們真正為生活帶來了三角洲湖。現在,你聽說過它是什麼以及如何強大的可以,讓我們看看它的實際效果。所以,交給你,布倫納。
布蘭諾Heintz:我叫布雷納Heintz。我是一個技術PMM磚,今天我將向您展示如何三角洲湖為lakehouse架構提供了完美的基礎。我們要做一個演示,我將向您展示它是如何工作的從業者的角度來看。在我們這麼做之前,我想強調三角洲湖備忘單。我在這工作和我的幾個同事,和這裏的想法是能夠提供一個資源等從業者自己,能夠快速、輕鬆地達到速度與三角洲湖和可以生產非常,非常快。我們提供的大多數,如果不是所有的命令在這個筆記本,它是備忘單的一部分。所以,我強烈建議您下載這個筆記本,你可以直接點擊這個圖片,它會直接送您到小抄,提供一個尋呼機與Python和一個尋呼機三角洲湖三角洲湖與火花SQL。
布蘭諾Heintz:那麼,第一為了使用三角洲湖,你需要能夠將數據轉換成三角洲湖格式。和我們能做,而不是說拚花的一部分創建表或數據幀火花作家命令,所有你要做的就是把這個詞三角洲,能夠馬上開始使用三角洲湖。這是一看,是什麼樣子。與Python,我們可以用火花閱讀鋪在我們的數據格式。你也可以讀到你的CSV或其他格式的數據。火花非常靈活。然後我們簡單地把它寫出來格式由指示δ。
布蘭諾Heintz:我們要拯救我們的貸款增量表中的數據。我們可以做同樣的事情與SQL。我們可以使用create table命令使用然後保存我們的桌子在δ格式。最後,轉換為三角洲命令使它很容易將我們的數據轉換為三角洲湖格式。所以,現在,我們已經向您展示了如何將您的數據格式等三角洲,讓我們看看一個三角洲湖表和看起來像什麼。所以,我已經運行單元。我們有14705批記錄在我們的貸款增量表。今天,我們正在與一些數據從貸款俱樂部,你可以看到目前我們的部分表的列。
布蘭諾Heintz:所以,我繼續開始幾流表。這裏的想法是向你們展示,三角洲湖表能夠處理批處理和流媒體數據,並且他們能夠整合這些直接開箱即用的沒有任何額外的配置或其他需要的東西。您不需要構建一個λ架構,例如,批處理實時數據集成。三角洲湖表可以輕鬆地管理。正如你所看到的,我們寫每秒500條記錄,到我們現有的三角洲湖表。我們這樣做有兩個不同的作家,隻是為了告訴你,你可以同時讀寫從三角洲湖表始終與資產交易,確保你永遠不會處理管道破損,導致腐敗的狀態表,例如。
布蘭諾Heintz:三角洲湖的一切事務。這允許我們創建不同讀者和作者之間的隔離。很強大,它可以節省我們很多頭痛和大量的時間消除錯誤,我們可能沒有acid事務。我承諾,這兩個流寫耦合。我還創建了兩個流讀取表中給你們發生了什麼在附近。所以,我們在這裏這些最初的14705批記錄。但是從那以後我們有大約124000流記錄已進入我們的桌子。
布蘭諾Heintz:這是基本相同的圖表,但是顯示你在每個10-second-window發生了什麼,每一個酒吧代表一個10-second-window,正如你所看到的,因為我們的流開始,我們有大約5000條記錄每流寫入我們的表在任何時間。所以,所有這一切隻是說三角洲湖是一個非常強大的工具,使您可以輕鬆地集成批處理和連續流數據的。這是非常容易使用,你可以馬上開始。把櫻桃上,我們添加了一個批處理查詢可能有效的措施,我們策劃使用磚內置的可視化工具,這是非常容易和允許您可視化的東西很快。
布蘭諾Heintz:所以,現在,我們給你們是多麼容易批處理和集成與三角洲湖流數據,讓我們來談談數據質量。你需要工具執行模式和模式演化為了執行表的質量。原因是你不希望上遊數據源,添加額外的列,刪除列,或者改變你的模式沒有你不知道的。因為這可能會導致下遊管道破損,然後影響你所有的數據表。所以,為了避免這種情況,我們可以使用模式首先執行。所以我創建了這個新數據,數據幀包含一個新列,信用評分欄,我們當前表中不存在。
布蘭諾Heintz:所以,因為三角洲湖提供模式執行我們運行這個命令的時候,我們得到了一個例外,因為模式不匹配被三角洲湖。這是一件好事。我們不想讓我們的數據成功地寫信給我們的三角洲湖表因為它不匹配我們的期望。然而,隻要我們知道我們想故意遷移模式,我們可以通過添加一個命令我們寫命令,我們包括合並模式選擇。現在,這些額外的列是成功寫入我們的桌子,我們也能夠發展我們的模式。現在,當我們試著選擇的記錄在我們的表,在我們的新的數據表中,你可以看到這些記錄實際上是成功寫入新信用評分的表和列現在出現在我們的表的模式。
布蘭諾Heintz:那麼,這些工具給你,他們非常強大,它們允許您執行數據質量的方法,你需要為了你的數據從原始非結構化數據過渡到高質量的結構化數據,這是準備加班下遊應用程序和用戶。所以,現在,我們已經討論過進化模式執行和計劃,我想繼續三角洲湖時間旅行。時間旅行三角洲湖是一個非常強大的特性。在三角洲湖,因為一切事務,我們跟蹤所有的事務中隨著時間的推移我們的三角洲湖表事務日誌,可以讓我們回到過去,重建我們的三角洲湖表的狀態在任何時候。
布蘭諾Heintz:首先,讓我們看看這是什麼樣子的。所以,在任何時候,我們可以通過運行該訪問事務日誌描述曆史命令。,正如你所看到的,每一個版本的表代表某種交易,某種形式的改變是我們的表。所以,我們最近的變化是我們顛覆了這些品牌新記錄新三角洲湖表列。所以,你可以看到這裏的事務,在這之前我們有一些流媒體更新。所有的這些權利發生我們的表被添加事務。基本上這允許您然後回去使用版本號或時間戳,然後查詢曆史版本的三角洲湖表在任何時候。很強大,因為你甚至可以做創造性的事情像比較當前版本的表來看看前一版本改變了之後,和做其他的事情。
布蘭諾Heintz:那麼,讓我們繼續這樣做。讓我們看,我們將使用時間旅行要查看表的原始版本,版本0。這應該包括那些我們開始的14705條記錄,因為此時版本0的表,我們沒有流任何新記錄到我們的桌子。最初的版本,正如你所看到的那些14705條記錄是唯一版本記錄存在的零。和沒有信用評分列,因為當然,在版本0,我們尚未進化三角洲湖表模式。
布蘭諾Heintz:所以,對比14705條記錄當前表的記錄數,這是超過326000。最後,你能做的另一件事與三角洲湖穿越恢複前一個版本的表在任何給定的時間點上。這是很強大的,如果你不小心刪除一列你不是故意,或刪除一些記錄你不是故意的,你可以回去,然後使用恢複命令的當前版本表完全恢複你的數據的方式是在給定的時間戳或版本號。所以,正如你所看到的,當我們運行這個命令恢複原狀版本表的零,我們能夠成功地這樣做。現在,當我們查詢它,我們隻得到14705條記錄作為表的一部分。
Brenner Heintz:接下來,的一個功能,我認為開發人員,工程師和其他數據從業者是尋找當他們正在構建lakehouse是運行簡單的DML命令的能力隻有一兩行代碼,可以做的操作,比如刪除、更新、合並,插入等等。在傳統數據湖,那些根本不可能的。三角洲湖,您可以運行這些命令,他們隻是以事務的方式工作,他們這樣做。他們非常非常簡單。所以,管理變更數據變得更加容易當你這些簡單的命令處理。
布蘭諾Heintz:那麼,讓我們來看看,我們選擇4420用戶ID作為測試用例,我們將使用專門的修改他們的數據展示三角洲湖能做什麼。正如你所看到的,他們目前在我們的表,但是如果我們運行這個命令刪除指定特定用戶,當我們運行該命令,然後我們從表中,選擇所有我們現在沒有結果。成功刪除了。接下來,當我們看描述曆史命令,事務日誌,所以你可以看到刪除,我們目前隻是進行表。你也可以看到我們做的恢複跳回到原來的版本的表零也存在。我們也可以做表插入記錄直接回我們如果我們想要這樣做。
布蘭諾Heintz:在這裏,我們要用穿越看版本0,我們表的原始版本之前,該用戶被刪除,然後重新插入該用戶的數據。所以,現在當我們運行選擇所有命令,用戶再次出現在我們的桌子。插入命令偉大的工作。接下來,有更新的命令。更新是非常有用的,如果你有行級的變化需要。在這裏,我們要改變這個用戶資助金額22000。真正讓它25000年,看起來已經22000年了。
布蘭諾Heintz:那麼,我們將更新這個數字,然後當我們查詢我們的桌子,現在,事實上,已經成功更新用戶的資助金額。最後,在三角洲湖你真的有能力,真正強大的合並。你可以有一個表充滿變化的數據,例如代表三角洲湖表插入和更新。三角洲湖,你可以插入。在一個單一的步驟你可以…每一行的數據幀,你想寫你的三角洲湖表,如果這一行已經出現在你的表,您可以簡單地更新這一行的值。而如果這一行不存在在你的表,你可以插入它。
布蘭諾Heintz:那麼,這就是所謂的一個插入,是完全可能的,他們非常非常容易在三角洲湖。管理你的三角洲湖非常,非常簡單。首先我們創建一個快速數據幀隻有兩個記錄,我們想要回我們的表添加用戶4420的數據。然後我們還創建了一個用戶的用戶ID,而下一個100萬年。所以,這是999999。和這個用戶當前沒有出現在我們的桌子。我們想要插入它們。這是我們的小數據幀是什麼樣子。你可以看到,我們有這些更新或插入。當我們運行我們的合並命令,三角洲湖是能夠識別行已經存在,如用戶4420,和那些不已經存在。 And when they don't exist, we simply insert them.
布蘭諾Heintz:那麼,如你所見,這些更新,插入成功發生和三角洲湖upsert沒有問題。最後,我想指出的最後一件事是一些特定的性能改進提供了三角洲湖的一部分。而且作為磚的一部分,三角洲湖。我們有幾個命令,是磚,此刻隻三角洲湖。首先是真空的命令。真空命令需要看看目前的文件表的一部分,刪除任何文件,不是目前的一部分表已經存在了一個指定的保存期。所以,這允許您清理舊版本的表比特定的保存期,雲的節省成本。
布蘭諾Heintz:磚三角洲湖上你可以做的另一件事是你可以在內存中緩存特定命令的結果。所以,如果你有一個特定的表,下遊分析師往往總是集團通過特定的維度,您可以緩存SQL命令,和它看起來總是比它更快,這樣能夠避免做一個完整的讀取的數據,例如。你也有能力使用Z順序優化的命令,這是強大的。Z順序優化本質上看著你的數據表的布局,它找出最完美的方式來定位你的數據在不同的文件中。它列出了你的文件在一個優化的方式,這可以讓你節省雲存儲成本,因為它出來的方式通常是比將當你開始更加緊湊。然後它還優化那些表讀寫吞吐量。
布蘭諾Heintz:那麼,這是非常強大的。它加速查詢的結果,最終將節省您的存儲和計算成本。這就是演示。我希望你喜歡這個演示。再一次,看看湖三角洲備忘單,我們將職務描述或在聊天的一部分,是下麵的演示的一部分。所以,非常感謝。我希望你喜歡這個演示。在GitHub上查看三角洲湖,加入我們,鬆弛,或者我們郵件列表的一部分。非常感謝。
山姆Steiny:太棒了。謝謝你,布倫納。這是真的,真的很好。我很興奮現在由負責人芭芭拉Eckman加入。芭芭拉是一個高級康卡斯特公司首席軟件架構師,她會分享她的經驗與三角洲湖和使用磚確實是如何影響她的日常業務和康卡斯特。所以,非常感謝在這裏,芭芭拉。我們超級興奮。
負責人芭芭拉Eckman:嗨,大家好。很高興來到這裏。希望你們都做得很好。我在這裏談論混合雲自助計算機環境中的訪問控製在康卡斯特。我想真正的簡要提到Comcast需要非常認真的承諾我們的客戶來保護他們的數據。beplay体育app下载地址我康卡斯特的一部分,我們稱之為數據經驗大數據組。和大數據在這種情況下不僅意味著公共雲,而且on-prem數據。所以,我們有一個異構數據集,它提供了一些挑戰,挑戰是有趣,對嗎?我們的願景是,數據被視為企業的資產。這不是一個新概念,但這是一個很重要的一個。
負責人芭芭拉Eckman:我們的使命是權力Comcast企業通過自助服務平台,數據發現血統,管理治理、工程服務,所有這些重要的事情,使人們真正使用數據的重要方式。Beplay体育安卓版本我們知道許多強大的商業見解,最強大的見解來自模型的數據集成,跨筒倉。見解對改善客戶體驗和業務價值。所以,這意味著業務有一些例子。基本上,這是基於大量的遙測數據,我們從傳感器和康卡斯特的網絡捕獲。我們捕獲延遲,交通,信號噪聲比,下遊和上遊、錯誤率和其他東西,我甚至不知道他們的意思。
負責人芭芭拉Eckman:但這使我們能夠做一些改善客戶體驗計劃網絡拓撲來幫助如果有地區大量的流量,我們可能會改變政策支持。最小化的卡車,卡車卷是我們所說的那個康卡斯特拉索或電纜時女性來到你的房子。在這COVID時期,我們真的想最小化,甚至更多。如果我們能提前分析數據,我們也許可以做出任何調整或建議調整,用戶可以最小化需要人來他們的房子。
負責人芭芭拉Eckman:我們可以監控、預測問題和補救措施經常在用戶知道之前因為這個數據,這包括遙測數據和跨企業集成與其他類型的數據。然後優化網絡性能為地區或整個家庭。所以,這是非常重要的東西,它真的幫助客戶。beplay体育app下载地址我們努力使這個更普遍。那麼,是什麼使你的生活困難嗎?這是一個專業的聲明。如果你想談論個人,什麼使你的生活困難?以後我們可以做,但什麼使你的生活困難作為數據專業嗎?
負責人芭芭拉Eckman:人們通常說,“我需要找到數據。所以如果我要整合數據倉庫,我需要找到它。我知道它在筒倉,但也許。”And the way we do that is a metadata search and discovery, which we do through Elasticsearch. Then once I find the data that might be of interest to me, I need to understand what it means. So, what someone calls an account ID might not be the same account ID that you are used to calling an account ID, billing IDs, or back office account IDs need to know what it means in order to be able to join it, to make sense as opposed to Franklin data, monster data that isn't really appropriately joined. We need to know who produced it, that it come from a set-top box. Did it come from a third party who touched it while it was journeying through Comcast, through Tenet, through Kafka or Kinesis and someone aggregated it and then maybe somebody else enriched it with other data.
負責人芭芭拉Eckman:然後它降落在一個數據。用戶數據的數據湖想知道數據從何而來,和誰說。你可以認為這是出版商的數據在數據湖,說,“這看起來古怪的,這有什麼錯?誰打亂了我的數據?”He could also say, or they could say, "Wow, this is enriched really great. I want to thank that person." And also someone who's just using the data wants to know who to ask questions. What did you enrich this with? Where did that data come from, that kind of thing? So, and all that really is helpful when you're doing this integration. That's data governance and lineage, which we do in Apache Atlas.
負責人芭芭拉Eckman:這是我們的元數據和血統庫。一旦你發現數據和理解它,你必須能夠訪問它。我們通過Apache管理員及其擴展Privacera所提供的。一旦你擁有它,你需要能夠跨企業的整合和分析它。所以,最後,現在我們得到好東西能夠得到數據。我們可以用自助計算使用磚。和磚是一個非常強大的工具。最後我們發現我們真的需要資產為重要操作合規。我們可以用δ湖。所以,我可以更詳細地討論這個,上麵或者在提問環節。
負責人芭芭拉Eckman:我是一個建築師。所以,我必須有公共汽車和線路圖。這是一個混合雲解決方案的高級視圖。收入通過我們的數據中心,我們有一個湖,Hadoop Hadoop數據管理員和Apache阿特拉斯一起工作。我們很多公司的定相,但不是馬上,它需要一段時間。我們有一個地球數據,企業數據倉庫。同樣,我們認為此舉和不一定完全雲,但也許另一個on-prem來源,如對象存儲。我們使用MinIO基本上給出了混合這個這樣子S3對象。所以,當火花的工作,我們喜歡用S3上也可以運行在我們之前的數據存儲。
負責人芭芭拉Eckman:當然這是一個大優點。為此,我們有一個管理員數據服務,幫助與訪問控製。在雲計算中,我們使用AWS雖然Azure在康卡斯特也有一個很大的足跡。這裏的中心和磚計算。我們用它來訪問動作。紅移,我們剛剛開始。我們使用三角洲湖和S3對象存儲和我們有一個管理員插件的磚人工作認真Privacera創建,以便我們的自助磚環境所有nit腳本和配置,它需要運行Privacera提供的訪問控製。
負責人芭芭拉Eckman:我們也使用很快和我們聯合查詢功能,它也有一個管理員插件和所有的元數據標記應用於政策,或者被安置在Apache阿特拉斯和測距儀和阿特拉斯一起同步。這就是管理員知道政策適用於哪些數據。在提問環節,如果你想深入挖掘這些,我會很高興去做。這對我來說是非常令人興奮的,我們隻是滾出來和它是如此優雅,我沒有所以我可以說創建它。因此,管理員分析一起提供一個聲明基於策略的訪問控製。正如我所說,Privacera延伸騎警,最初隻在Hadoop AWS插件和代理。和我們使用的一個關鍵的,當然,磚在所有這三個環境。基本上我喜歡這是我們真的有一個管理員來控製一切,阿特拉斯是他的好友,因為他或她提供,提供了標簽,真的力量我們的訪問控製。
負責人芭芭拉Eckman:這是又一個圖。我們有一個門戶,我們為自我服務構建應用程序和用戶標簽,元數據標記,PII這樣,這是一個視頻領域,這些東西。進入阿特拉斯、標記和元數據關聯與測距儀同步,政策的基礎上。所以,誰CPI ?誰可以看到視頻領域數據嗎?同步和兌現的插件。當用戶調用應用程序時,無論它是一個雲應用程序在磚,甚至一個on-prem應用程序,該應用程序問管理員,“這個用戶是否有訪問做他們要求在這些數據做什麼?”If the answer is yes, and it's very fast, because these are plugins. If the answer is yes, they get access.
負責人芭芭拉Eckman:如果沒有,接著他們得到一個錯誤信息,我們也可以做掩蔽和顯示數據,如果有人訪問許多列,但並不是所有的列,我想說一個膠表我們可以掩蓋那些他們無法訪問,仍給他們什麼他們可以看到數據。最近我們真的需要酸合規。傳統的大數據湖泊是編寫一次,讀過很多。我們有東西流在有線電視機頂盒的世界,那些沒有事務,這不是事務數據。這就是我們,但現在我們越來越多地發現,我們需要從我們的拚花文件刪除特定的記錄等等。在火花我們可以這樣做,但這是一個可怕的性能。當然這是可以做到的,但事實證明三角洲湖它更好。
負責人芭芭拉Eckman:刪除更多的性能,你可以查看過去的快照數據湖,這是非常可怕的。所以我們真的走向,我愛這個詞,一個lakehouse能夠做,編寫一次,讀過很多和酸都在一個地方。這在很大程度上是由於數據湖泊。所以,這就是我。請聯係我的電子郵件,如果你的願望。我很樂意回答問題如果你有任何生活會話。所以,非常感謝你們的聆聽。
山姆Steiny:謝謝你加入這個事件,芭芭拉。那太好了。很高興聽到康卡斯特的故事。所以,讓我們一些問題。我們要搬到現場問答。所以,請添加你的問題,問答。