建議需要一個協調器/調度器……頁2 -磚- 18041

BkP · ‎06-10-2022

你好朋友,

我們有一個應用程序,它從各種表提取dat Azure磚,我們提取的postgres表(postgres安裝在Azure vm)。提取我們應用變換後的數據集在postgres表的幫助下火花在木星的筆記本和編寫的程序加載數據Neo4j圖形數據庫(Neo4j安裝在另一個Azure VM)。現在我們正在做提取通過SQL查詢和轉換Postgres我們利用Python(火花)計劃。有很多的表(超過100),有依賴性,不可能所有手動運行。因此,我們正在尋找一個協調器和調度器可以創建我們的工作執行工作流和安排他們運行在一個特定的時間框架。你能推薦一個嗎?提前感謝。我將該應用程序的架構,在這篇文章。

BilalAslamDbrx · ‎06-11-2022

@Badal熊貓請考慮磚工作流。全麵管理,可靠和支持您的場景。

BkP · ‎06-12-2022

謝謝你的響應@Bilal Aslam

Kaniz · ‎06-13-2022

嗨@Badal熊貓,我檢查後如果你有一個決議。如果你有任何解決方案,請與社區分享,因為它可以幫助別人。否則,我們將與更多的細節和試圖幫助回應。

BkP · ‎06-17-2022

嗨@Kaniz開羅,

我們正在與工廠首先jupyter代碼遷移到Azure數據磚筆記本。然而下麵的管道失敗和錯誤在寫一個特定表的postgres磚-

org.apache.spark。SparkException: 30248年910年取消了因為工作任務階段1422年超過了最大允許輸入輸出記錄比(1到24919,最大允許1到10000);這個限製可以修改配置參數spark.databricks.queryWatchdog.outputRatioThreshold

BilalAslamDbrx · ‎06-18-2022

你有一個巨大的交叉連接,你不知道嗎?或者一些聯接條件生產中的許多行輸出……

磚

建議需要一個協調器/調度器調度和執行工作以自動化的方式