我有工作和運行多個任務asynchron……-磚- 2691

dave_hiltbrand · ‎06-22-2023

我有工作和異步運行多個任務,我不認為它利用基於運行時的所有節點在集群上。我打開火花UI的集群和結帳的執行人,看不到任何任務工作節點。如何監控集群,以確保我的任務並行運行,利用多個節點集群?

Debayan · ‎06-23-2023

嗨,你能請查看指標在節點級別,看看那你期待什麼?

https://docs.m.eheci.com/compute/cluster-metrics.html view-metrics-at-the-node-level

請與你的下一個更新標簽@Debayan穆克吉,這樣我將得到通知。

dave_hiltbrand · ‎06-23-2023

嗨Debayan,我確實注意到每個工人完成任務節點的數量是不同的,當我看著火花UI - >執行人頁麵。所以它似乎整個集群使用但我不能告訴如果司機節點發送任務並行工人或按順序分配。我的工作流程是這樣的:之前我跑一個筆記本和m #筆記本在一個循環中執行:

在MODEL_NUMBERS model_number: global_parameters [' model_number '] = model_number打印(f“建設{model_number}火車/測試數據…”)train_test_data = dbutils.notebook.run (global_parameters build_train_test, 60 * 60) train_test_data = json.loads (train_test_data)如果(file_exists (train_test_data [' TRAIN_DATA '])和file_exists (train_test_data [' TEST_DATA '])): f”{model_number}培訓/測試數據完成。”打印(f”培訓模式{model_number}…”) trained_model = dbutils.notebook.run(“訓練”,0,global_parameters)如果file_exists (trained_model): evaluation_metrics = dbutils.notebook.run(“評價”,60 * 60,global_parameters)指標的evaluation_metrics.split(" "):如果file_exists(指標):繼續其他:提高FileNotFoundError(“評估度量了”+度量):提高FileNotFoundError(“培訓模型沒有找到:”+ trained_model):提高FileNotFoundError(“訓練和測試數據沒有找到:”+ train_test_data)打印(f“建設final_model {model_number}火車/測試數據…”)如果ENV[‘測試’,‘刺激’]:dbutils.notebook.run (“final_models”, 0, global_parameters)

連續循環工作運行在28分鍾的異步/並行作業運行在50分鍾。

Vidula_Khanna · ‎06-23-2023

嗨@Dave Hiltbrand

很高興認識你,謝謝你的問題!

看看你的同行在社區中有一個回答你的問題。謝謝。