比較Apache火花TM和磚
Apache Spark的功能提供了速度、易用性和使用廣度的好處,包括支持一係列用例的api:
- 數據集成和ETL
- 互動分析
- 機器學習和高級分析
- 實時數據處理
Databricks建立在Spark之上,並添加:
- 高可靠性和高性能的數據管道
- 大規模生產數據科學
Funzionalita一confronto
磚運行時 |
運行多個版本的Spark | ||
為雲存儲訪問優化的內置文件係統(AWS S3, Redshift, Azure Blob) | ||
為SQL和Python工作負載提供自動配置資源的無服務器池 | ||
spark本地細粒度資源共享,以實現最佳利用 | ||
計算資源故障隔離 | ||
更快地寫入S3 | ||
計算聯接和篩選期間的優化 | ||
快速的發布周期 | ||
伸縮計算 | ||
伸縮本地存儲 | ||
集群的高可用性 | ||
多用戶共享集群 | ||
在現場實例和按需實例之間自動遷移 | ||
第二級計費 |
管理三角洲湖 |
ACID事務 | ||
模式管理 | ||
批處理/流讀/寫支持 | ||
數據版本控製 | ||
性能優化 |
集成工作區 |
交互式筆記本,支持多種語言(SQL, Python, R和Scala) | ||
實時協作 | ||
筆記本修訂曆史和GitHub集成 | ||
一鍵式可視化 | ||
將筆記本發布為交互式儀表板 |
生產工作和工作流程 |
Spark作業監視警報 | ||
從筆記本電腦到Spark Jobs的一鍵部署 | ||
在筆記本電腦中構建工作流的api | ||
帶監視的生產流 |
企業安全 |
筆記本、集群、作業和結構化數據的訪問控製 | ||
審計日誌 | ||
支持SAML 2.0的SSO | ||
數據加密(靜態和動態) | ||
合規性(HIPAA, SOC 2 Type 2) |
集成 |
通過認證的ODBC/JDBC連接其他BI工具(Tableau, lookker等) | ||
REST API | ||
數據源連接 |
專家支持 |
來自設計Spark的提交者的幫助和支持 | ||
SQL支持 |