建議需要一個協調器/調度器……頁3 -磚- 18041

BkP · ‎06-10-2022

你好朋友,

我們有一個應用程序,它從各種表提取dat Azure磚,我們提取的postgres表(postgres安裝在Azure vm)。提取我們應用變換後的數據集在postgres表的幫助下火花在木星的筆記本和編寫的程序加載數據Neo4j圖形數據庫(Neo4j安裝在另一個Azure VM)。現在我們正在做提取通過SQL查詢和轉換Postgres我們利用Python(火花)計劃。有很多的表(超過100),有依賴性,不可能所有手動運行。因此,我們正在尋找一個協調器和調度器可以創建我們的工作執行工作流和安排他們運行在一個特定的時間框架。你能推薦一個嗎?提前感謝。我將該應用程序的架構,在這篇文章。

jose_gonzalez · ‎07-29-2022

嗨@Badal熊貓,

隻是一個友好的後續。你還尋求幫助嗎?

這個錯誤來自高並發集群:

org.apache.spark。SparkException: 30248年910年取消了因為工作任務階段1422年超過了最大允許輸入輸出記錄比(1到24919,最大允許1到10000);這個限製可以修改配置參數spark.databricks.queryWatchdog.outputRatioThreshold

解決方案:https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/query-watchdog

BkP · ‎08-01-2022

你好@Jose岡薩雷斯,

謝謝你的回應,這個問題得到解決。

VartikaNain · ‎08-18-2022

嘿@Badal熊貓

希望你做得很好。

我們很高興聽到你能解決你的問題。很樂意答案標記為最好,其他成員可以找到解決方案更快嗎?

謝謝!

BkP · ‎08-18-2022

嗨@Vartika將近城門,

確定我可以分享細節關於協調器/調度器,但是最近有改變我們的設計架構與源係統讓我簡要解釋

最初為我們的應用程序中,我們提取的數據使用磚從ADLS筆記本(SQL / Pyspark火花)和攝入數據postgres和postgres Neo4j加載我們使用Jupyter作為突出顯示在我的架構圖,我在這裏分享。根據專家建議我在這裏我們嚐試與Apache氣流,但沒有獲得成功,在磚磚工作我們隻能安排的筆記本但不是Jupyter上運行的工作,我們也嚐試ADF但是Jupyter ADF沒有連接器連接。我們解決這個問題的混合方法磚工作流(所有磚筆記本電腦)+ CRONTAB Jupyter筆記本。Jupyter是托管在一個本地Linux機器,所以我們使用cron作業的幫助下Jupyter所有筆記本的shell腳本。
現在我們的源係統正在改變,我們需要從突觸。所以我們要使用Azure數據工廠作為我們的協調器,所有工作負載調度器。

我希望我已經回答了你的問題。請讓我知道如果有什麼我可以澄清。

VartikaNain · ‎08-22-2022

嘿@Badal熊貓

感謝你回到我們。真是偉大的你發送答案。

我們非常感謝你的時間。

祝您旅途大磚吧!

磚

建議需要一個協調器/調度器調度和執行工作以自動化的方式