取消
顯示的結果
而不是尋找
你的意思是:

進口放緩並發筆記本

pantelis_mare
貢獻者三世

你好所有的,

我有大量的光筆記本運行我的並發方法啟動筆記本與dbutils.notebook.run並行運行。

我增加並行越多,我看到每個筆記本的持續時間增加。

我觀察到細胞,包括進口的持續時間增加而並行20 - 30秒:

進口org.apache.spark.sql.functions。{坳,點燃,to_date, date_format} org.apache.spark.sql.types進口。{DateType, TimestampType, IntegerType} org.apache.spark.sql進口。}{DataFrame,行導入org.apache.spark.sql.catalyst.analysis.NoSuchTableException

值得一提的是同樣的問題與細胞包含導入聲明

進口spark.implicits._

通知你我使用並行馬克斯一半的可用的驅動核心(如16並行F32s司機)

有策略,可以解決這個問題嗎?

謝謝你提前,

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

@Pantelis Maroudis,每個筆記本將創建它自己的sparkcontext,和每一個上下文意味著開銷。

核的數量並不是唯一指標而且內存和磁盤。

使用這種方法也將司機更沉重的負擔。

在原帖子查看解決方案

5回複5

werners1
尊敬的貢獻者三世

@Pantelis Maroudis,每個筆記本將創建它自己的sparkcontext,和每一個上下文意味著開銷。

核的數量並不是唯一指標而且內存和磁盤。

使用這種方法也將司機更沉重的負擔。

Hubert_Dudek1
尊敬的貢獻者三世

@Pantelis Maroudis,是的@Werner Stinckens並行在司機說無論如何將發送隊列中的火花作業工人,和每一個CPU工作一步一步1分區上同時……我用ThreadPool經常過去然後我停止時有點無稽之談,以防您的代碼是正確的(是為了工作執行人不是司機):slightly_smiling_face:

  • 對於每一個筆記本,一些資源使用獨立池spark.sparkContext.setLocalProperty (“spark.scheduler。池”、“池名稱”)
  • 你可以設置並行運行使用工作/任務——一個* * * * *任務和其他任務取決於1任務的形象:image.png

你好@Hubert杜德克,

謝謝你的回應和幫助!是的,我試圖使用調度器。池,但正如你所說的池火花資源。在我的例子中瓶頸實際上是司機調度筆記本,不是火花調度。作為證明,我觀察到相同的行為與筆記本沒有interacti火花

Kaniz
社區經理
社區經理

嗨@Pantelis Maroudis,隻是一個友好的後續。你還需要幫助,還是@Hubert杜德克(客戶)和@Werner Stinckens的反應幫助你找到解決方案了嗎?請讓我們知道。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map