再保險:加州大學啟用集群ADF攝入2 -磚- 30252頁

ossinova · ‎09-29-2022

我遷移數據湖使用統一目錄。然而,這有更改集群。我已經嚐試了一些選項,但似乎比它應該是相當複雜的。

我需要創建一個集群利用ADF統一啟用,可以安裝一個罐子裏。從我的測試中,一個共享的集群不能使用dbutils我(我需要傳遞參數。e的表)。它也不允許庫/ JAR安裝。

單個用戶互動集群似乎是正確的方法。然而,我無法添加ADF服務主體作為一個用戶。

集群工作工作。但我有許多管道和磚筆記本工作,日常運行。如此看來,而過度啟動X集群時可以使用一個或兩個集群互動

什麼是正確的方法來創建一個集群為加州大學ADF啟用,允許dbutils和可以有一罐安裝在嗎?

運行更多的工作比一個交互式通用一個集群更貴嗎?

werners1 · ‎09-29-2022

絕對值得調查。

注意互動集群更或少兩倍工作集群有關

ossinova · ‎09-29-2022

而不是這樣的布局:

銀/

-Silver_Pipeline_Table1

-Silver_Pipeline_Table2

黃金/

-Gold_Pipeline_Table1

-Gold_Pipeline_Table2

我應該使用類似:

表/

表1(金銀)

表二(金銀)

werners1 · ‎09-29-2022

這取決於的依賴關係。

如果gold_table1隻取決於silver_table1我會做

pipeline1 = silver_table1 - > gold_table1(順序)。使用一個集群池可以使用溫水gold_table1工人

並行和表二可以做同樣的事情。(甚至運行所有順序)

你也可以並行運行多個筆記本在同一集群:

ossinova · ‎09-29-2022

@Werner Stinckens沒錯。我們的管道有一個大量的依賴,這就是為什麼我們有其作為獨立管道基本上等待某些事件說依賴管道完成- >新管道運行。盡管如此,我將嚐試工作的集群和檢查結果比我們當前的方法。謝謝你的有用的細節。