解決:Re:慢進口並發筆記本-磚- 21490

pantelis_mare · ‎05-04-2022

你好所有的,

我有大量的光筆記本運行我的並發方法啟動筆記本與dbutils.notebook.run並行運行。

我增加並行越多,我看到每個筆記本的持續時間增加。

我觀察到細胞,包括進口的持續時間增加而並行20 - 30秒:

進口org.apache.spark.sql.functions。{坳,點燃,to_date, date_format} org.apache.spark.sql.types進口。{DateType, TimestampType, IntegerType} org.apache.spark.sql進口。}{DataFrame,行導入org.apache.spark.sql.catalyst.analysis.NoSuchTableException

值得一提的是同樣的問題與細胞包含導入聲明

進口spark.implicits._

通知你我使用並行馬克斯一半的可用的驅動核心(如16並行F32s司機)

有策略,可以解決這個問題嗎?

謝謝你提前,

werners1 · ‎05-05-2022

@Pantelis Maroudis,每個筆記本將創建它自己的sparkcontext,和每一個上下文意味著開銷。

核的數量並不是唯一指標而且內存和磁盤。

使用這種方法也將司機更沉重的負擔。

在原帖子查看解決方案

werners1 · ‎05-05-2022

@Pantelis Maroudis,每個筆記本將創建它自己的sparkcontext,和每一個上下文意味著開銷。

核的數量並不是唯一指標而且內存和磁盤。

使用這種方法也將司機更沉重的負擔。

Hubert_Dudek1 · ‎05-07-2022

@Pantelis Maroudis,是的@Werner Stinckens並行在司機說無論如何將發送隊列中的火花作業工人,和每一個CPU工作一步一步1分區上同時……我用ThreadPool經常過去然後我停止時有點無稽之談,以防您的代碼是正確的(是為了工作執行人不是司機)

對於每一個筆記本,一些資源使用獨立池spark.sparkContext.setLocalProperty (“spark.scheduler。池”、“池名稱”)
你可以設置並行運行使用工作/任務——一個* * * * *任務和其他任務取決於1任務的形象:

pantelis_mare · ‎05-18-2022

你好@Hubert杜德克,

謝謝你的回應和幫助!是的,我試圖使用調度器。池,但正如你所說的池火花資源。在我的例子中瓶頸實際上是司機調度筆記本,不是火花調度。作為證明,我觀察到相同的行為與筆記本沒有interacti火花

Kaniz · ‎05-12-2022

嗨@Pantelis Maroudis,隻是一個友好的後續。你還需要幫助,還是@Hubert杜德克(客戶)和@Werner Stinckens的反應幫助你找到解決方案了嗎?請讓我們知道。

磚

進口放緩並發筆記本