解決:Python火花工作——錯誤:工作失敗的錯誤我……-磚- 24525

lukas_vlk · ‎03-28-2022

嗨磚專家。我目前麵臨的問題在Azure上運行數據磚提交工作。任何幫助在這是非常受歡迎的。詳情見下:

問題描述:

我提交了一個python火花任務通過磚cli (v0.16.4) Azure磚REST API (v2.0)到集群上運行一份新工作。看到atteched工作。json的集群配置。工作成功運行和生成輸出。盡管如此,這項工作失敗與錯誤消息說“筆記本太大的輸出”。

關於這個問題我的問題是:

——為什麼是提交的工作作為一個火花python任務顯示一條錯誤消息與筆記本的任務?

——為什麼工作即使失敗日誌輸出不超過限製嗎?(詳情見下文)

我希望看到:

成功完成的工作,沒有錯誤

我看到了:

工作失敗與錯誤消息顯示“運行結果不可用:任務失敗與錯誤消息的輸出筆記本太大。”

已經完成的步驟:

1。谘詢Azure和磚文檔的一個可能的錯誤原因。看到的:

根據文檔這個錯誤發生,如果stdout日誌超過20 MB。

實際stdout日誌輸出大小:1.8 MB

2。增加py4j日誌級別減少stdout日誌輸出

logging.getLogger (py4j.java_gateway) .setLevel (logging.ERROR)

減少stdout日誌輸出大小:390 KB

3所示。使用log4j來編寫應用程序日誌

lukas_vlk · ‎03-30-2022

從我身邊沒有任何進一步的改變,自29.03.2022 disappeard錯誤

在原帖子查看解決方案

Hubert_Dudek1 · ‎03-28-2022

輸出通常是相關的print()收集()等

在你提到的文檔是火花配置命令來刪除完全stdout (spark.databricks.driver。disableScalaOutput真的)。我知道這不是你想用但是也許可以幫助診斷問題日誌或腳本輸出。

沒有多少人使用spark_python_task,而所有使用筆記本(最終文件一起在回購或輪)所以從磚中也許有人需要幫助。

lukas_vlk · ‎03-28-2022

謝謝你的回答

寫完這個問題,我使用“spark.databricks.driver進行了測試。disableScalaOutput”:“真正的”。不幸的是這並沒有幫助解決這個問題。

關於收集()“我們與0實施運行工作,我們隻使用火花加載一些鑲花的數據集,然後在python中處理。我們使用“spark.sql.execution.arrow.pyspark。啟用”:“true”期間提高性能轉換從火花DataFrames熊貓。增加“spark.driver。記憶”和“spark.driver。maxResultSize”沒有幫助。

lukas_vlk · ‎03-30-2022

從我身邊沒有任何進一步的改變,自29.03.2022 disappeard錯誤

Kaniz · ‎04-13-2022

謝謝你的更新@Lukas人民!

磚

Python火花工作——錯誤:工作失敗與錯誤消息的輸出筆記本太大。