康卡斯特是通信的主要提供者之一,娛樂,和有線電視的產品和服務。它的核心是康卡斯特RDK提供遙測的支柱產業。RDK(參考設計工具包)預捆綁為一個完整的家平台開源固件覆蓋視頻、寬帶和物聯網設備。Beplay体育安卓版本在康卡斯特RDK團隊分析pb的數據,從7000萬年開始每15分鍾收集一次設備(視頻和寬帶和物聯網設備)安裝在客戶的家園。他們跑ETL和聚合管道和發布分析儀表盤每天減少客戶電話和固件推出。分析也用於計算WIFI幸福指數是一個關鍵KPI康卡斯特的客戶體驗。
此外,RDK團隊也通過分析RDK固件版本跟蹤質量。SQL分析允許客戶操作lakehouse架beplay体育app下载地址構,提供了數據倉庫的性能數據湖經濟學長達4 x SQL工作負載更好的價格/性能比傳統的雲數據倉庫。
我們報告的結果與SQL“測試和學習”分析和三角洲引擎,我們與磚團隊合作工作。提出了一種快速演示介紹SQL native interface,我們麵對的挑戰遷移,執行的結果和我們的大規模productionizing這個旅程。
莫莉Nagamuthu:嘿,每一個人,謝謝你的到來。歡迎來到一個關於SQL分析的報告。今天的議程,我們將為SQL設置上下文分析,簡要展望Lakehouse平台,它是什麼,為什麼我們需要SQL分析適合的地方。Beplay体育安卓版本我們還將深入了解一下SQL分析。我的公司今天的主持人,蘇拉Nesamani,會用遙測用例的所有細節,我們測試它。在我們潛水在一次簡短的介紹我自己,我的名字叫莫莉Nagamuthu。我是一個居民磚的解決方案架構師。在這個角色,我神奇的關鍵戰略客戶一起工作的機會,幫助他們在最艱難的通過利用我們的磚平台數據和人工智能實現。beplay体育app下载地址Beplay体育安卓版本我有20多年的產品開發經驗,工程,和專業服務。這是一個有益的經驗在不同行業在這些美好的公司,我有機會。 I’ve been with Databricks for about two years and I’m loving it.
讓我們開始吧。Datebricks的願景是使數據驅動的創新企業。為了使它所有可能的,我們介紹了Lakehouse平台。Beplay体育安卓版本Lakehouse是一個磚”的概念引入企業更容易結合最好的數據倉庫和數據湖泊到一個單一的平台。Beplay体育安卓版本我們為什麼需要這個?因為盡管這個領域的進步,大多數企業仍然在數據。如果你需要建立一個端到端數據驅動的企業,那麼你需要建立四個不同的堆棧來處理所有的數據顯示需求。這是數據工程、數據倉庫、實時攝取和數據科學和毫升。通常情況下,因為它代表今天,他們是非常不同的技術和一般不很好地協同工作。這樣做的原因是,正如您所看到的,有很多工具可用。
唯一的問題是,他們斷開連接。在某些情況下,您必須處理各種專有格式。當你添加角色具有不同的一套技能,我們現在討論的孤立的數據團隊,不有效溝通結果,生產力下降,核心的問題是技術棧是建立和解決這些問題,磚”提供了一個完整的Lakehouse平台。Beplay体育安卓版本在雲在所有雲。所以它是多重雲,與所有不同的原生雲緊密集成的能力。您的數據可以保持在一個開放的數據。
磚與三角洲提供數據管理和治理,確保安全、可靠性和性能。它支持所有工作負載在一個平台從數據工程,BI數據科學和實時應用程序Beplay体育安卓版本。保持所有的工作在一個平台,簡化了數據的工作團隊和允許簡單的協作。Beplay体育安卓版本現在讓我們專注於磚SQL的分析。
到目前為止在這次旅行我們5000 +的客戶。beplay体育app下载地址和最初的創造者火花三角洲動物流,我們收集很多企業在每一個行業的工作經驗。我們已經建立了一個良好記錄數據攝取ETL處理和機器學習。唯一的差距需要過程,是提供一個健壯的BI和SQL機製分析。
這裏是最新的除了我們的工具套件,磚的SQL分析。它提供了一個回家SQL分析師在磚和能夠查詢你的湖的房子,有更好的價格,性能,簡化發現和分享的新見解,連接到熟悉的工具表或權力BI和簡化管理和治理。除了本地實質和可視化工具,SQL分析提供支持所有現有的BI應用程序。是一個非常廣泛的BI工具,包括畫麵和BI。您可以連接SQL分析端點可靠數據和快速查詢性能。
現在讓我們看看一些廣泛使用的情況下,支持。他們主要是三倍。第一個是最大化現有投資通過連接您的首選BI工具如表或權力BI數據使用SQL湖分析端點,連接器是完全重新設計和優化,以確保快速性能,低延遲和高用戶並發性數據。
第二個響應業務需求更快的與自我一定不好過體驗設計的分析師在你的組織中。磚SQL的分析提供了一個簡單的和安全的數據訪問。你有能力創建或重用續集可視化查詢和快速模型和迭代和儀表板適合最好的業務。最後但不是最少,你可以建立一個富裕和自定義數據增強自己的組織或客戶申請。beplay体育app下载地址現在我想指出的是,這裏的關鍵是,你做的所有的這些數據湖上,而不是將數據移動到任何工具來得到這些見解。數據總是可用的數據。
現在讓我們看看它是如何工作的,有哪些組件,使這一切成為可能。我們首先需要確保策劃湖在一個開放的數據格式的數據。它確實…不管它是結構化或非結構化數據。湖變成了基本塊的數據架構。當然,我們需要一個本地續集接口查詢整個數據湖和能夠可視化這些結果。如果我們把現有的BI工具,那麼我們需要優化的連接器來連接你的數據。這些是由磚。第二大的是電腦本身。如果你有使用磚在過去,你知道是多麼容易設置計算通過創建和配置您的集群,但是SQL分析則更進一步,續集端點和抽象很多複雜性和使它更簡單。
最重要的一部分,這是一個強大的、完全重寫矢量化續集引擎。與所有你能得到的性能提升。看到所有這些磚的工作空間,讓我們進入一個快速演示。澄清一下,這不是用例的演示,我們將禮物,這是一個延續之前的幻燈片看到我們剛才討論的所有組件,看看它們看起來像在磚工作區。讓我們繼續,登錄一個磚的工作區。一旦你登錄你的磚工作空間,你會看到你的常規數據工程工作負載和集群和一切;你習慣的相同。你也可以看到你的ML端到端管道,你所有的ML模型和,和東西。如果你,如果續集分析是安裝在工作區,然後如果你訪問,你可以從這裏訪問它。
讓我們點擊。一旦我們擁有它,這是秘密分析主屏幕。所以讓我們看看探索性數據分析用例,我們可以創建一個查詢或儀表板或警報。一旦我們點擊創建查詢,你看到這裏的SQL編輯器,編輯器會自動啟用自動填充。所以當你,當你輸入,你看到什麼選項可用,然後如果你想禁用它,你可以,你可以禁用這個點擊這裏,您可以創建底部和矩尺很容易如果你,如果你需要。這就是數據瀏覽器的所有數據庫訪問和訪問可以控製很容易使用——使用大語句。你可以看到表的模式,和其他數據庫訪問和一切。
這裏是端點。我們將討論這一點。這是SQL的主要計算分析。讓我們看看,讓我們加載查詢,我們已經有了。我們隻是想探索tpc數據庫。隻是,我隻是做——找到一個簡單的查詢看看呼叫中心。我今年繼續執行。不會占用太多的時間,是的,我們有。和我們可以很容易增加可視化的結果。你可以看看——你可以選擇軸軸,任何事,任何聚合列,你可以,你可以創造任何你想要的。 We just fired a very simple query, so I’m just going to use the simplest visualization possible on this. I’m just looking at how many employees are distributed for- per call center for each of these cities.
一旦你有一個可視化的查詢,您可以很容易地添加到儀表板添加,添加可視化的儀表板。現在讓我們看看我們如何能把這些儀表板。所以我們有…我們有一個儀表板查詢補充說。我們有另一個查詢,我們隻是儀表板添加到儀表板,這隻是一個查詢的聚合,我剛剛跑。接下來,讓我們,也可以為這些查詢,設置警報條件。這裏我有,我有一個警報設置和聚合,大於一百萬美元,我可以在這裏添加任意數量的用戶的電子郵件警報。所以很容易設置。如果你有儀表板在定期刷新刷新,我不要,我沒有設置在刷新展示此功能。
現在,一旦你在刷新時間表,然後你知道,狀態將被觸發的基礎上,根據發生在儀表板的刷新。所以這隻是看到我們如何探索,使用續集分析探索。現在讓我們看看端點,可用。結束點,有兩個端點。正如我前麵提到的,這些都是t恤大小,大中型,創建一個想法很簡單。沒有很多。你要做的隻是名字,t恤端點的大小,數量的分鍾的活動自動停止負載平衡最小值和最大值,然後我們是否需要光子,光子需要矢量化查詢引擎,我們隻是談論。當然,現場實例政策,等等。
現在,一旦我們有,一旦我們有端點,讓我們看一下連接細節。也有這個URL。這是網址,你可以用它來連接它從表或權力BI BI工具,你需要。現在,終點也有,還有一個SQL API端點。您可以使用API端點來觸發,自動化的端點和執行查詢,從您的應用程序。另一些指標來監測指標,,數量的查詢,查詢和運行的峰-峰的峰值急性查詢,在這裏我們沒有很多它不是,它是一個共享共享集群;這不僅僅是我們隻是跑的負載。和它也有終點使用集群的數量。這不是不止一個,有這將意味著四和max之一,但它看起來像它隻是使用一個集群。
這些是一些,一些,這些都是他們中的一些人,一些功能,我們隻討論了SQL - SQL分析和整個峰會,討論這些,我們不會深入,現在因為我們依然,我們必須討論的用例,我們測試它。並且有許多的談判,做一個深入的這些組件。所以,請看看這些。這是集群級別映射的t恤的端點。
讓我們來看看一些額外的資源。有很多磚上的額外的可用資源的網站。我們也可以加速你的BI用例磚的Lakehouse平台與我們的SQL分析,MVP客戶成功發行,這是Q2。Beplay体育安卓版本對於每一個組件,我提到,我隻是表明,他們有很多的相關談判中發生的峰會。所以我們將,如果你錯過了這些,那將是我們的虛擬平台上可用,我認為對於一個月左右。Beplay体育安卓版本現在告訴我們關於我們在康卡斯特遙測用例,我交給公司今天的主持人,蘇拉Nesamani,蘇拉之後。謝謝每一個人。
確定Nesamani:謝謝莫莉。大家好。謝謝你在這裏。在我開始之前,讓我來介紹一下我自己。我的名字叫蘇拉Nesamani。我在康卡斯特首席工程師為倡導工作。我有15年的工程經驗,主要從事RDK遙測和大數據分析。我領導一個團隊的分析人士和工程師負責建立RDK平台,分析平台。Beplay体育安卓版本我專攻RDK遙測分析為什麼他們發生指數pod推薦引擎,當然處理pb級的標量數據集。現在讓我們談談RDK羅格斯血統(聽不清)所以RDK代表裝備,和是一個開源格式與任何預先打包設備,是家裏的一部分,康卡斯特(聽不清)。 So be it a video broadband device or IOT devices. To give you an example, if you’re on a phone with a service tech, because you set your set up box or your wifi gateway- gateway is not working, and they are sending a radio signal to a center box.
這是電話,他們在的地方,我們互動。在早期,康卡斯特創造了這個規範,但是現在它是開源的,在媒體行業很受歡迎,以及在遙測行業,幾乎所有的設備已經RDK,有這個能力做遙測。我們有接近1700萬設備和安裝到北美。我們做很多ETL聚合RDK設備上的遙測數據。我們,我們開發儀表板的數據,用於商業理由,這除了製定和推出前者。現在讓我們來談談RDK遙測和數據管道架構。任何設備,預構建,RTK固件叫做——我們稱之為設備的一篇文章。我們有接近1700萬的設備,這是分布在全國各地。我們有接近每天24 tb的數據,我們收集的這些設備。
這個詞說,遙測設備本身隻是所收集的數據。我指示裝置,遙測事件,每15分鍾,雲中的數據被收集起來。現在讓我們看看雲中的數據被收集。RDK遙測數據傳輸(聽不清)通過曆史TP。我們使用Apache來收集傳入的數據流。一旦流感注意收集數據,我們寄給CAF Apache卡夫卡對實時流,以及Splunk做一些(聽不清)查詢,(聽不清)查詢,看看數據看起來或任何我們希望看到的數據。好,現在讓我們看看我們如何處理數據。我們有這個數據實時卡夫卡。我們流數據,我們處理它引發EMARS,生成格式化的鑲花文件。這些文件都存儲在S3,我們的存儲層。
然後我們按這個數據到S3和紅移,我們運行另一個聚合查詢,CA,得到聚合數據用於業務儀表板或任何高決策分析。現在,讓我們說話,讓我們來看看我們的紅移集群的樣子。所以我們的集群,活躍集群是12節點集群的DC - 8 X大筆記。我們一天超過一千執行查詢,CPU使用率是非常重。大多數的一部分,但考慮到你看到有數量,我們與我們的數據量,和我們使用視頻重聯接來收集數據,,獲得數據,聚合數據。所以舉個例子,如果你想看電影,叫卡莉飆升著色,,,客戶開始打電話或我們得到,我們得到,我們開始收到很多電話和我們想要看到的,好吧,電話來自哪個區域或地區。
現在你可以想象,我,我有這個填充數據遙測數據。然後我這個帳戶數據和加入整件事,看問題是撒謊。這,這使教室裏忙碌,總是這樣,但五年前我們構建這部分。和那些日子尖端技術,我們可以做最好的沒有我們的數據。它工作得很好,但這是,我們好像是時候探索新的想法和看到更好的方式去看,好吧,如何更好的我們可以,我們可以探索新技術的市場。好吧,讓我們來看看紅移的掌聲和缺點集群。它的,它很容易在攝取數據和存儲,存儲的英語很容易。隻是添加筆記。紅移是很好的處理複雜的查詢,這是健壯的,但我們在長時間存儲數據的挑戰,因為這樣你就加快集群,這是昂貴的。
而且價格是另一個主要概念當我們開始旋轉的集群。現在,計算和存儲的緊密耦合引發了一些挑戰,我們有提供和支付高峰負荷和數據。這就是昂貴的數據集在那一天。然後這就像一個靜態集群,坐在那裏。所以我們有,每天早上,他們,我們需要一些業務儀表板填充,得到,他們決定,一整天。所以我,我們必須有數據填充。當我們有,我們需要管理集群,CPU峰值,可能,我們得到了一個盒子,我們有一個工作負載管理集。我們得到什麼,我們得到查詢一個盒子,,使儀表板看起來空和團隊被困。
所以不管我們要填充這些數據,我們反對這個TCP CPU和故事和查詢運行第一,給更偏好,等等。所以我們探索選擇和我們看繁多,各種其他軟的東西。這是當我們開始使用磚幾年前。好吧,這是一個非常進步的關係到目前為止,我們遷移的一些複雜的紅移管道使用火花3數據和磚,它工作得很好。我們也可能會得到一些EMR磚平台的工作負載。Beplay体育安卓版本我們也使用磚在某些查詢的優化。,我們,我們,我們,我們,我們,我們把一些數據庫的培訓,這是非常有用的。我們更新了我們的,我們也升級到新版本的IX的數據平台,更安全,可伸縮的,和更簡單的管理。Beplay体育安卓版本前麵所描述的,我們的要求是一個請求得到更快,更便宜,更有效的方法來處理分析管道是回答。
當我看到這張照片在Lakehouse架構幻燈片,這對我們的平台做了一個很有意義的。Beplay体育安卓版本我們想給,嚐試;私人預覽和磚啟用SQL的分析,但是我們的工作空間。為什麼不試一試,因為它是不管怎樣在一個私人的預覽,我們榮幸試一試。設置測試的範圍和土地,我們這麼做,我們把10慢查詢,他們最重的查詢,我們總是進入轉變的問題,和像超時的問題。他們拿起CPU使用所以我們十把最差的查詢您可以保存。我們有紅移。我們,我們,當我們想,好吧,我們在SQL執行相同的查詢分析和看看它是怎麼回事。很困難,很難在生產環境中測試單獨查詢。
讓我設置的期望。既然我們已經在生產環境中運行的其他查詢,模仿相同的環境和它運行速度,它是非常昂貴的花相同,相同的集群。所以它不是一個蘋果蘋果比較,說,當我們運行這些查詢,我們,我們把Vista,保持CPU空閑。當我們執行這個查詢,這不是一個蘋果和蘋果的比較。但是最接近我們,我們能做的就是一般的球場數量通過運行磚上沒有書工作。我們也想要運行的比較數據磚沒有拚花格式轉換成任何格式。
我們有很多分配兩到三周的在線測試,我們決定使用磚內部金屬的爐子。我們的大多數數據在S3中。我們也有時間限製為測試出來。我們需要管理員權限來創建數據(聽不清)分析端點。我們沒有太多在ACS各種查詢。我們要讓它運行非常快,看看一切工作和執行。第一個任務是把火花SQL查詢,90比例的轉換簡單。我們必須想出創造性的解決方法。我們有一個大致的節點上尺寸,因為我們跑筆記本工作。我們測試了SQL分析,額外的大型和點。 We have seen benefits of Delta in the past. Plus we wanted to see how it perform this photon. So we tested against a photon as well.
所以下張那裏,你可以看到細胞。所以很神奇的結果。我們測試範圍廣泛的工作負載。那些表現很好的聚合和複雜的查詢。舉個例子,如果你看到兩個,我們已經加入了一個數據集,如520億行和300萬行。與很多正則表達式和一個模塊化的差異,或沒有光子。和觀察,我們看到的是SQL分析(聽不清)當我們預覽,這不是當我們跑POC之前,需要SQL接口非常直觀,易於使用。創建終點非常簡化。它幫助SQL分析,很大的分析師。我們使用它在很大程度上。 As of now, analytics does not support does not have support for UDS. We did not test ACL’s too much, but it seemed simple enough though.
我集中的目錄將會很好的和我們期待,結果,POC,這對我們很激動人心,但我們也有多個磚的工作空間,與我們合作。我們的大部分數據是在S3中。我們目前不使用目錄,但它看起來像磚有解決方案。我們叫它統一目錄。這個特性,它看起來非常有前途的技術,我們期待著使用它,看看它是怎麼回事。我們仍在試驗的早期階段Lakehouse以及它對我們的需求,但是這個項目是令人興奮的足夠的與大家分享。謝謝你!