Neo4j

Neo4j是利用數據關係作為一級實體的本機圖數據庫。方法將Databricks集群連接到Neo4j集群neo4j-spark-connector它提供了用於RDD、DataFrame和GraphFrames的Apache Spark api。Neo4j -spark-connector使用二進製Bolt協議在Neo4j服務器之間傳輸數據。

本文描述了如何部署和配置Neo4j,配置Databricks以訪問Neo4j,並包括一個演示使用的筆記本。

Neo4j部署和配置

您可以在各種雲提供商上部署Neo4j。

要使用自定義AMI在AWS EC2上部署Neo4j,請遵循在AWS的EC2上托管Neo4j.有關其他選項,請參閱官方的Neo4j雲部署指南。本指南假定Neo4j 3.2.2

更改默認的Neo4j密碼(第一次訪問Neo4j時應該會提示您)並進行修改conf / neo4j.conf接受遠程連接。

# conf / neo4j.conf#螺栓接頭dbms.connector.bolt.enabled真正的# dbms.connector.bolt.tls_level =可選dbms.connector.bolt.listen_address0.0.0.0:7687# HTTP連接器。必須隻有一個HTTP連接器。dbms.connector.http.enabled真正的# dbms.connector.http.listen_address = 0.0.0.0:7474# HTTPS連接器。可以有0個或1個HTTPS連接器。dbms.connector.https.enabled真正的# dbms.connector.https.listen_address = 0.0.0.0:7473

有關更多信息,請參見配置Neo4j連接器

磚的配置

如果您的Neo4j集群在AWS中運行,並且您希望使用私有ip,請參閱VPC凝視指南。

  1. 安裝兩個庫:neo4j-spark-connector而且graphframes作為火花包。看到指南說明。

  2. 用這些創建一個集群火花配置

    spark.neo4j.bolt。url螺栓:/ / < ip-of-neo4j-instance >: 7687 spark.neo4j.bolt。用戶<用戶名> spark.neo4j.bolt。密碼<密碼>
  3. 導入庫並測試連接。

    進口orgneo4j火花_進口orggraphframes_瓦爾neoNeo4jsc//虛擬密碼查詢檢查連接瓦爾testConnectionneo數字"MATCH (n) RETURN n;").loadRdd

Neo4j筆記本