連接到StreamSets

預覽

這個特性是在公共預覽

StreamSets幫助你管理和監控數據流數據的整個生命周期。StreamSets本機與磚的集成和三角洲湖允許您將數據從各種來源和管理你的管道。

StreamSets的綜合演示程序,請看下麵的YouTube視頻(10分鍾)。

這是用StreamSets磚的步驟。

第一步:生成一個磚個人訪問令牌

StreamSets驗證使用磚與磚的個人訪問令牌。

請注意

作為一個安全最佳實踐進行身份驗證時使用自動化工具,係統、腳本和應用程序,磚建議您使用OAuth令牌或個人訪問令牌屬於服務主體而不是用戶工作區。為服務主體,創建令牌服務主體的管理令牌

第二步:建立一個集群支持集成需求

StreamSets將數據寫入一個S3 bucket和磚集成的集群將從該位置讀取數據。因此集成集群需要安全訪問S3 bucket。

安全訪問S3 bucket

AWS資源的訪問,你可以啟動磚集成集群實例的配置文件。實例配置文件應該訪問分期S3 bucket和目標S3 bucket,你想寫三角洲表。創建一個實例配置文件和配置集成集群使用的角色,按照說明S3訪問配置實例配置文件

作為一種替代方法,您可以使用我憑證透傳,使特定於用戶的訪問S3數據從一個共享集群。

指定集群配置

  1. 集群模式標準

  2. 磚的運行時版本的運行時:6.3或以上。

  3. 啟用優化和自動壓實寫道你通過添加以下屬性火花配置:

    spark.databricks.delta.optimizeWrite.enabled真實spark.databricks.delta.autoCompact.enabled真實
  4. 配置您的集群根據您的集成和擴展的需要。

集群配置的細節,請參閱創建一個集群

看到檢索連接細節的步驟來獲得JDBC URL和HTTP路徑。

第三步:獲得JDBC、ODBC連接細節連接到一個集群

連接一個磚集群StreamSets需要JDBC / ODBC連接屬性如下:

  • JDBC URL

  • HTTP路徑

第四步:獲得StreamSets磚

報名StreamSets為磚,如果你不已經有一個StreamSets帳戶。你可以開始免費升級當你準備好;看到StreamSets DataOps平Beplay体育安卓版本台定價

第五步:了解如何使用StreamSets數據加載到三角洲湖

從樣本管道或檢查StreamSets解決方案學習如何構建一個數據管道吸入到三角洲湖。

額外的資源

支持