今天,我們宣布了新的Databricks SQL服務,為Databricks客戶提供一流的體驗,直接在數據湖上執行BI和SQL工作負載。beplay体育app下载地址這次發布給Databricks帶來了一種新的體驗,數據分析師和數據工程師會喜歡的。該服務提供了一個專用的SQL-native工作區,內置連接器,讓分析師使用他們已經使用的BI工具查詢數據湖,查詢性能創新,在更大、更新鮮的數據集上交付比傳統分析師所能訪問的更快的結果,以及新的治理和管理功能。通過此次推出,我們率先實現了湖屋架構的完整願景,將數據倉庫性能與數據湖經濟結合起來。
我們的敵人是複雜性
大多數客戶beplay体育app下载地址通常在雲中使用結合了數據倉庫和數據湖的複雜數據架構來運營他們的業務。因此,客戶的數據通過創建大beplay体育app下载地址量數據豎井的數據管道在組織內移動。大量的時間花費在維護這些管道和係統上,而不是從數據中創造新的價值,而且由於產生了固有的數據豎井,數據的下遊消費者很難獲得單一的真相來源。這種情況在財務和業務上都變得非常昂貴,並對決策速度和質量產生負麵影響。
解決這個問題是一個循序漸進的過程。40年前,客戶將數據從關係數beplay体育app下载地址據庫轉移到數據倉庫,以實現商業智能。大約10年前,數據湖開始出現,因為數據倉庫無法處理原始數據、視頻、音頻、圖像和自然語言數據,以及非常大規模的結構化數據。
雲中的數據湖具有高持久性、低成本和無限製的規模,為當今許多企業優先考慮的數據科學和機器學習用例提供了良好的支持。但是,所有傳統的分析用例仍然存在。因此,客戶通常擁有兩個beplay体育app下载地址數據副本,並為此付費,他們花費大量時間設計流程以保持數據同步。這會產生連鎖反應,減慢決策製定速度,因為分析師和業務線團隊隻能訪問發送到數據倉庫的數據,而不能訪問數據湖中最新、最完整的數據。
最後,隨著多雲越來越成為企業的普遍現實,所有這些數據移動都在多個雲平台上重複。Beplay体育安卓版本
整個情況一團糟。
交織在一起的數據湖和數據倉庫的複雜性是不理想的,我們的客戶告訴我們,他們希望能夠鞏固和簡化他們的數據架構。beplay体育app下载地址對非結構化和大規模數據進行高級分析和機器學習是當今企業最重要的戰略重點之一,而非結構化數據的增長將呈指數級增長,因此,客戶考慮將其數據湖定位為數據基礎設施的中心是有意義的。beplay体育app下载地址然而,為了實現這一點,數據湖需要一種采用數據倉庫優勢的方法。
湖屋結合了數據倉庫和數據湖的精華
解決這種複雜性的方法是lakehouse,這是一種結合了數據湖和數據倉庫最佳元素的平台架構。Beplay体育安卓版本湖屋是通過一種新的係統設計實現的,該設計實現了與雲數據湖使用的低成本存儲上的數據倉庫中的數據結構和數據管理功能類似的數據結構和數據管理功能。在現代世界中,如果您必須重新設計數據倉庫,那麼您將得到這種架構,因為現在有了廉價且高度可靠的存儲(以對象存儲的形式)。你可以在這裏讀到更多關於湖屋的特點博客.
湖屋的地基是三角洲湖.Delta Lake為數據湖帶來了可靠性、性能、治理和質量,這對於數據湖的分析是必要的。現在,有了正確的數據結構和數據管理功能,完成湖屋的最後一公裏是解決數據分析師實際查詢數據湖的方式。
介紹磚SQL
Databricks SQL允許客戶在多雲湖beplay体育app下载地址屋架構上執行BI和SQL工作負載。這個新服務由四個核心組件組成:專用的sql -本機工作空間、通用BI工具的內置連接器、查詢性能創新以及治理和管理功能。
一個sql native工作區
Databricks SQL為數據分析師提供了一個新的、專用的工作空間,他們可以使用熟悉的基於SQL的環境來查詢數據湖上的Delta Lake表。因為Databricks SQL是一個完全獨立的工作空間,數據分析師可以直接在Databricks平台上工作,而不受基於筆記本的數據科學工具的幹擾(盡管我們發現數據科學家也非常喜歡使用SQL編輯器)。Beplay体育安卓版本然而,由於數據分析師和數據科學家都從同一個數據源工作,因此整體的基礎設施大大簡化,並且保持了單一的真相來源。
該工作區允許分析人員輕鬆地探索模式,將經常使用的代碼保存為片段以便快速重用,並緩存查詢結果以縮短後續運行時間。此外,查詢更新可以被安排為自動刷新,當數據發生有意義的變化時,也可以通過電子郵件或Slack自動發出刷新警報。
工作空間還允許分析人員通過豐富的可視化來理解數據,並將這些可視化組織到拖放儀表板中。一旦構建完成,儀表板就可以很容易地與涉眾共享,從而使共享數據洞察在整個組織中無處不在。
現有BI工具的內置連接器和廣泛的合作夥伴支持
對於生產型BI,很多客戶都投資了Tableau、beplay体育app下载地址Microsoft Power BI等BI軟件。為了讓這些工具在查詢數據湖中最新鮮、最完整的數據時獲得最好的體驗,Databricks SQL為目前可用的所有主要BI工具提供了內置連接器。
在整個數據生命周期中,Databricks SQL的發布得到了Databricks生態係統中500多個合作夥伴的支持。我們很高興有以下合作夥伴與我們共同投資,使客戶能夠使用他們最喜歡的分析工具與Databricks SQL和lakakehouse架構:beplay体育app下载地址
- BI合作夥伴:表,權力BI,Qlik,美人,Thoughtspot
- 攝取的合作夥伴:Fivetran,Fishtown分析,Matillion,Talend,Qlik
- 目錄的合作夥伴:Collibra,Alation
- 谘詢合作夥伴:激流回旋,Thorogood,先進的分析,Avanade
快速查詢性能
在數據湖上啟用分析工作負載很大程度上是為了解決性能問題。要實現卓越的性能,需要解決兩個核心挑戰:查詢吞吐量和用戶並發性。
今年早些時候,我們宣布光子引擎,我們的多態查詢執行引擎。Photon Engine通過三個組件加速Delta Lake的SQL和數據幀工作負載的性能:一個改進的查詢優化器,一個位於執行層和雲對象存儲之間的緩存層,以及一個用c++編寫的多態向量化執行引擎。使用Photon,客戶觀察beplay体育app下载地址到查詢執行時間比Apache Spark 3.0快10倍。
處理了吞吐量之後,我們將注意力轉向了用戶並發性。從曆史上看,數據湖很難在高用戶數量下保持快速性能。為了解決這個問題,Databricks SQL增加了新的SQL優化的計算集群,可以根據用戶負載自動伸縮,隨著查詢數據湖的數據分析師數量的增加,提供一致的性能。通過控製台設置這些集群是快速和容易的,Photon Engine內置以確保最高級別的查詢吞吐量。外部BI客戶端可以通過專用端點連接到集群。
治理和管理
最後,在Databricks SQL控製台中,我們允許管理員應用SQL數據訪問控件(AWS,Azure),以便更好地控製數據湖中的數據如何用於分析。此外,我們提供了對所有已執行查詢的曆史的深入可見性,允許您探索每個查詢的人員、時間和位置以及執行代碼,以幫助您遵守和審計。查詢曆史還允許您了解查詢執行的每個階段的性能,以幫助排除故障。
在管理方麵,您可以聚合查詢運行時、並發查詢、每小時的峰值排隊查詢等詳細信息,以幫助您隨著時間的推移更好地優化基礎設施。您還可以圍繞運行時限製設置控件,以防止不良參與者和失控查詢、排隊查詢限製等。
開始
Databricks SQL完成了將湖屋架構從願景變為現實的最後一步,Databricks自豪地成為第一個將完整的湖屋解決方案推向市場的公司。數據團隊的所有成員,從數據工程師和架構師到數據分析師再到數據科學家,都比以往任何時候都更加合作。Databricks平台的統一方法使協作變得容易,並通過單一的真相來源進行創新Beplay体育安卓版本,從而大大簡化了數據基礎設施,降低了成本。
Databricks SQL現在可以預覽了。現有客戶可以聯係他beplay体育app下载地址們的客戶團隊來獲得訪問權限。此外,您可以通過Databricks SQL產品頁麵.