跳轉到主要內容
公司博客上

磚運行時3.0 Beta提供雲優化Apache火花

通過雷諾鑫

2017年5月24日 公司博客上

分享這篇文章

主要價值磚提供自動配置,配置和調優的集群處理數據的機器。運行在這些機器是磚的運行時構件,包括Apache火花和額外的軟件比如Scala, Python, DBIO和db。這些工件beplay体育app下载地址為客戶提供價值:他們減輕責任的手動縮放;他們加強安全;他們提高I / O性能;他們提供快速的發布版本。

在過去,運行時和上遊co-versioned Apache火花。今天,我們正在改變到一個新的版本計劃,將磚從引發運行時版本的更新版本,並讓我們轉達主要特點在磚運行時清楚地給我們的客戶。beplay体育app下载地址我們也使磚的beta 3.0運行時,下一個主要版本,包括最新的候選版本構建Apache 2.2火花,今天提供給所有客戶。beplay体育app下载地址(注意,火花2.2尚未正式發布了Apache)。

beplay体育app下载地址客戶可以選擇這個版本在創建一個新的集群。

磚3.0運行時維爾森

在這篇文章中,我們將解釋什麼是磚運行時,它所提供的附加價值,預覽的一些主要在即將到來的3.0版本更新。

磚運行時和版本控製

磚運行時上運行的軟件構件集的集群機器由磚。它包括火花,還添加了許多組件和更新,大大提高可用性、性能和安全的大數據分析。的主要區別是:

  1. 與DBIO更好的性能:磚I / O模塊,或DBIO,利用垂直整合堆棧來顯著改善性能的火花在雲端。
  2. 更強的安全與db:磚企業安全、db模塊添加功能,如數據加密在休息和運動,細粒度的數據訪問控製和審計,以滿足標準遵從性(如HIPAA, SOC2)和最嚴格的安全需求期望的大型企業之一。
  3. 顯著降低操作複雜度:功能,如自動伸縮的計算資源和本地存儲,我們把火花在“自動駕駛儀”,明顯降低操作複雜度和管理成本。
  4. 快速釋放和早期訪問新特性:上遊開源版本相比,磚的SaaS提供方便快速的發布周期,提供客戶最新的功能和錯誤修正,還沒有可用的開源版本中。beplay体育app下载地址

現有的磚客戶可能認識到磚運行時被稱為“集beplay体育app下载地址群形象”和與火花co-versioned這個版本之前,例如,火花2.1線出現在磚平台“2.1.0-db1”,“2.1.0-db2”、“2.1.0-db3”,“2.1.1-db4”。Beplay体育安卓版本而火花是一個主要組件的運行時,老co-versioning計劃有標簽的局限性。新版本計劃將磚從引發運行時版本的更新版本,並讓我們轉達主要特點在磚運行時清楚地給我們的客戶。beplay体育app下载地址

實際上,磚運行時3.0測試版包括火花的發布候選版本2.2,及其所有工件,將自動更新我們將bug修複,直到6月通常是可用的。接下來,我們將討論這個運行時釋放的主要特性和改進。

性能和DBIO

磚3.0運行時包含一個DBIO的更新數量,提高性能,數據完整性和安全性:

  • 更高的S3吞吐量:提高讀寫性能的火花工作。
  • 更有效的解碼:提高CPU效率解碼時常見的格式。
  • 數據跳過:允許用戶更有效地利用統計數據文件刪除文件的查詢處理。
  • S3的寫道:功能事務(原子)寫(附加和新寫)到S3。投機可以安全地打開。

作為DBIO工件的一部分,亞馬遜紅移連接器增強包括:

  • 先進的下推到紅移:查詢片段包含限製,樣品,現在可以下推到紅移和聚合為執行從紅移集群減少數據移動到火花。
  • 自動與紅移的端到端加密:靜態數據和傳輸可以自動加密。

不久,我們將發布一個博客顯示性能改進的觀察TPC-DS基準。給你一個急轉彎,我們磚運行時上運行3.0和火花的EMR相比,和磚快的每一個查詢,總geomean 5 x改進99複雜TPC-DS查詢。在10查詢在運行時提高10倍以上。

客戶測試了最新版本,發現4 x 60 x改進她的查詢在早期版本的火花:

“表現非凡的!我幾乎可以控告你的隨機數發生器,除了結果是正確的!”

細粒度的數據訪問控製

作為數據庫中的一個新特性為SQL和細粒度的數據訪問控製DataFrame api,數據庫管理員和數據擁有者可以定義訪問控製策略數據庫、表、視圖和函數在目錄中限製訪問。

使用標準的SQL語法,訪問控製策略可以定義在任意粒度,即行,列水平和總體水平。這是類似於Oracle等傳統數據庫特性或Microsoft SQL Server,但同時適用於SQL和DataFrame api支持所有語言。更好的是,它實現的方式沒有任何性能損失,不需要安裝任何額外的軟件。

作為一個例子,下麵的例子授予用戶rxin權限訪問總工資/部門,而不是員工的工資。

創建部門員工(名稱字符串,字符串,薪水);創建視圖dept_salary作為選擇部門,總和(工資)total_salary員工集團通過部門;格蘭特選擇dept_salaryrxin;

在未來的幾周內,我們將發布一係列的博客和相關文檔與細粒度的數據訪問控製的更多細節。

結構化流

結構化流介紹了一年前引發構建的新方法連續應用程序。它不僅簡化構建端到端的流媒體應用程序暴露一個API來編寫流查詢你會寫批處理查詢,但它還處理流的複雜性通過確保exactly-once-semantics,做增量有狀態的聚合,並提供數據一致性。

磚運行時從火花2.2 3.0包括以下新特性:

除了上遊改進,磚3.0運行時優化專門為雲部署,包括以下改進:

最後,處理後100年代數十億記錄的生產流,磚現在也考慮結構化流GA和為客戶準備生產。beplay体育app下载地址

其他值得注意的更新

高階函數嵌套SQL的數據處理:公開了一個強大和富有表現力的方法來處理嵌套數據類型(數組、結構體)。看到這篇博客為更多的細節。

改進的多租戶:當多個用戶同時運行工作負載在同一集群中,磚3.0運行時確保這些用戶可以得到公平的資源,因此用戶短缺、交互式查詢是不被用戶運行大的ETL作業。

自動伸縮功能本地存儲:磚3.0運行時可以自動配置本地存儲和規模的需求。用戶不再需要估計和提供EBS卷。

基於成本的優化器從Apache火花:最重要的更新引發2.2是引入一個基於成本的優化器。這個功能現在是可用的(默認情況下)磚運行時3.0 beta。

結論

磚3.0運行時將包括火花DBIO 2.2和1000多改善,db,和結構化流數據分析更容易,更安全,更高效。

雖然我們不建議將任何生產工作負載在這個測試版,我們鼓勵你讓它旋轉。測試版將自動更新的日常我們將在上遊開放源碼Apache bug修複火花以及其他組件,直到6月通常是可用的。

注冊一個今天磚試驗測試完整的功能。

免費試著磚
看到所有公司博客上的帖子
Baidu
map