Azure宇宙DB

Azure宇宙DB是微軟全球分布的多模型數據庫。Azure Cosmos DB允許您在Azure的任意數量的地理區域內彈性地、獨立地擴展吞吐量和存儲。它通過全麵的服務水平協議(sla)提供吞吐量、延遲、可用性和一致性保證。Azure Cosmos DB提供了以下數據模型的api,並支持多種語言的sdk:

  • SQL API

  • MongoDB API

  • 卡桑德拉的API

  • 圖(小鬼)API

  • 表API

本文解釋了如何使用Databricks從Azure Cosmos DB讀取數據,並向其寫入數據。有關Azure Cosmos DB的更多最新詳細信息,請參見通過使用Apache Spark到Azure Cosmos DB連接器加速大數據分析

重要的

該連接器支持Azure Cosmos DB的核心(SQL) API。對於MongoDB的Cosmos DB,使用MongoDB火花連接器.對於Cosmos DB Cassandra API,使用卡桑德拉火花連接器

創建並附加所需的庫

  1. 下載最新azure-cosmosdb-spark圖書館您正在運行的Apache Spark的版本。

  2. 按照下麵的說明將下載的JAR文件上傳到Databricks上傳一個Jar、Python egg或Python wheel

  3. 安裝上傳的庫進入你的Databricks集群。

使用Azure Cosmos DB Spark連接器

下麵的Scala筆記提供了一個簡單的示例,演示如何將數據寫入Cosmos DB並從Cosmos DB讀取數據。詳細文檔請參閱[Azure Cosmos DB Spark Connector][Azure Cosmos DB Spark Connector]項目。

Azure Cosmos DB筆記本

在新標簽頁中打開筆記本