跳轉到主要內容
Beplay体育安卓版本平台的博客

新磚SQL的性能改進

分享這篇文章

磚的SQL現在一般用於AWS和Azure。


最初宣布在2020年,歐洲數據+人工智能峰會上,磚的SQL讓你操作多重雲lakehouse架構,提供了數據倉庫的性能數據湖經濟學。我們的願景是讓數據分析師一個簡單而愉快的工具,從他們獲得和分享見解lakehouse使用專用SQL UI和世界級的支持流行的BI工具。

這個博客是第一磚的一係列SQL旨在覆蓋我們不斷的創新使實現這一願景:性能、易用性和治理。最近這個博客將覆蓋性能優化的SQL數據磚:

  • 高並發工作負載分析
  • 智能工作負載管理
  • 高度並行的讀取
  • 提高商業智能(BI)與雲獲取檢索結果

探索為什麼lakehouses未來的數據架構與數據倉庫的父親,Bill Inmon。

現實生活中除了大型查詢性能

磚的最初版本的SQL開始顯著的性能好處——6 x的價格/性能比傳統雲數據倉庫按下麵TPC-DS 30 TB量級的基準。考慮到TPC-DS基準是一種工業標準定義的數據倉庫供應商,我們很驕傲的這些結果。

磚的最初版本的SQL提供顯著的性能好處——6 x的價格/性能比傳統雲數據倉庫按照TPC-DS 30 TB量級基準

雖然這個基準模擬ETL等大型查詢工作負載或深度分析工作負載,它不包括一切我們的客戶。beplay体育app下载地址這就是為什麼我們最近幾個月與數以百計的客戶密切合作,提供快速和可預測的性能對於現實生活中的數據分析beplay体育app下载地址工作負載和SQL數據查詢。

我們今天正式ungate預覽,我們非常興奮地分享一些我們迄今取得的結果和性能。

場景1:高度並發工作負載分析

在與客戶的工作中,我們注意到它是beplay体育app下载地址常見的高度並行分析工作量相對小數據集來執行。直觀地說,這是有道理的——分析師通常應用過濾器和傾向於使用最近的數據超過曆史數據。我們決定把這個常見用例更快。優化並發性,我們使用相同的TPC-DS基準與一個小得多的尺度因子(10 gb)和32個並發流。我們有32個機器人提交查詢係統不斷,實際上模擬大量真實用戶之間因為機器人不休息運行查詢。

我們分析結果來識別和消除瓶頸,並多次重複這一過程。數以百計的優化後,我們改進並發3 x !現在磚SQL優於一些最好的雲數據倉庫對於大型查詢和小型的查詢與大量的用戶。

磚SQL優於一些最好的雲數據倉庫,不僅對於大型查詢,但小查詢大量的用戶。
10 GB TPC-DS查詢/人力資源在32並發流(更高更好)

場景2:智能工作負載管理

真實的工作負載,然而,不僅僅是大或小的查詢。他們通常包括一個混合的小型和大型查詢。因此磚的排隊和負載平衡功能的SQL需要考慮。這就是為什麼磚SQL查詢使用雙排隊係統,重視小大,分析師通常更關心短查詢與大的延遲。

磚的SQL查詢使用雙排隊係統,重視小大,分析師通常更關心短查詢與大的延遲。

場景3:高度並行的讀取

是常見的一些表lakehouse組成物聯網等許多文件如流場景的不斷攝取當數據到達。在遺留係統,執行引擎可以花更多的時間比實際執行該查詢清單這些文件!我們的客beplay体育app下载地址戶也告訴我們,他們不想犧牲性能數據新鮮度。

我們很自豪地宣布將異步和高度並行IO磚SQL。當您執行一個查詢,磚自動讀取下一個數據塊從雲存儲當前塊處理。這大大增加了整體小文件的查詢性能(通過12 x 1 mb文件)和“冷數據”(數據不緩存)的用例。

磚設計了一種新的掃描技術,可以自動讀取下一塊數據雖然在處理當前的塊,大大提高整體小文件的查詢性能。

場景4:改善BI與雲獲取檢索結果

一旦計算查詢結果,最後一英裏是加速係統如何提供結果給客戶端——通常BI工具像PowerBI或畫麵。遺留雲數據倉庫經常收集結果領袖(又名司機)節點,並流回客戶端。這大大減緩了BI工具經驗如果你抓取任何超過幾兆字節的結果。

這就是為什麼我們重塑這個方法用一個新的體係結構雲獲取。對於大型的結果,磚SQL寫結果在所有的計算節點上並行雲存儲,然後將使用pre-signed url的列表文件發送回客戶端。然後客戶端並行可以下載從雲存儲的所有數據。我們很高興報告高達10倍的性能提升的現實世界的客戶場景!我們正在與最流行的BI工具自動啟用此功能。

對於大的結果,底層並行集群現在寫的所有計算節點雲存儲,然後將使用pre-signed url的列表文件發送回客戶端。
“雲獲取使更快、更高帶寬連接

拆包磚SQL

這些隻是幾個例子的性能優化和創新使磚SQL數據湖上為您提供一流的SQL性能,同時保留一個開放的方法的好處。所以這是如何工作的呢?

磚的SQL引擎蓋下(marchitecture)
磚的SQL

開源三角洲湖是磚的基礎SQL。開放的數據存儲格式,帶來最好的數據倉庫係統數據湖泊,與ACID事務數據沿襲,版本控製,數據共享等等,以結構化、非結構化和半結構化數據。

SQL是磚的核心光子,一個新的本地矢量化引擎磚寫SQL工作負載運行得更快。閱讀我們的博客激進的速度對SQL查詢數據磚:光子要學習更多的知識。

和最後但並非最不重要,我們非常密切地與大量的軟件供應商,以確保數據團隊——分析師、數據科學家和SQL開發人員——可以很容易地使用他們的工具的選擇磚SQL。我們便於聯係,獲取數據並使用單點登錄進行身份驗證,而提高速度由於並發性和短的查詢性能改進我們之前所覆蓋。

下一個步驟

這僅僅是開始,我們計劃不斷傾聽和添加更多的創新服務。磚SQL已經將大量的價值很多組織Atlassian康卡斯特公司,我們迫不及待地想聽到你的反饋!

如果你現有的用戶數據磚,你今天可以開始使用磚SQL使用我們的入門指南Azure磚AWS。如果你沒有一個磚的用戶,訪問m.eheci.com/try-databricks開始免費試用。

最後,如果你想了解更多關於磚Lakehouse平台,看我們的網絡研討會,Beplay体育安卓版本數據管理,好的,壞的,醜陋。此外,我們還提供在線磚SQL培訓實踐經驗,個性化的研討會。了解更多請聯係您的銷售代表。我們很想聽聽你如何使用磚SQL和如何使BI和數據分析數據湖上更加簡單。

下麵看講台演講和演示

玩這個視頻,請點擊這裏,接受餅幹

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map