火花SQL

許多數據科學家,分析師和一般商業智能用戶依賴於交互式探索數據的SQL查詢。SQL是一種火花火花結構化數據處理模塊。它提供了一個編程抽象叫DataFrames SQL查詢,也可以作為一個分布式引擎。它使修改的Hadoop蜂巢查詢跑到快100倍在現有部署和數據。它還提供了強大的集成與其它引發生態係統(例如,將SQL查詢處理與機器學習)。

Apache火花SQL是什麼?

火花SQL將本機支持SQL火花和簡化查詢數據存儲在抽樣的過程(火花的分布式數據集)和外部來源。火花SQL方便抽樣和關係表之間的界限模糊了。統一這些強大的抽象使開發人員很容易將SQL命令查詢外部數據與複雜的分析,所有在一個單一的應用程序中。具體地說,火花SQL允許開發人員:

  • 蜂巢從鋪進口關係數據文件和表
  • 運行SQL查詢進口數據和現有的抽樣
  • 很容易寫出抽樣蜂巢表或鑲花的文件

火花SQL還包括一個基於成本的優化器,柱狀存儲,和代碼生成查詢快。同時,它擴展到數千個節點和幾個小時查詢使用火花幾天的引擎,它提供了完整的mid-query容錯,無需擔心曆史數據使用不同的引擎。

額外的資源

回到術語表
Baidu
map