嗨磚專家。我目前麵臨的問題在Azure上運行數據磚提交工作。任何幫助在這是非常受歡迎的。詳情見下:
問題描述:
我提交了一個python火花任務通過磚cli (v0.16.4) Azure磚REST API (v2.0)到集群上運行一份新工作。看到atteched工作。json的集群配置。工作成功運行和生成輸出。盡管如此,這項工作失敗與錯誤消息說“筆記本太大的輸出”。
關於這個問題我的問題是:
——為什麼是提交的工作作為一個火花python任務顯示一條錯誤消息與筆記本的任務?
——為什麼工作即使失敗日誌輸出不超過限製嗎?(詳情見下文)
我希望看到:
成功完成的工作,沒有錯誤
我看到了:
工作失敗與錯誤消息顯示“運行結果不可用:任務失敗與錯誤消息的輸出筆記本太大。”
已經完成的步驟:
1。谘詢Azure和磚文檔的一個可能的錯誤原因。看到的:
根據文檔這個錯誤發生,如果stdout日誌超過20 MB。
實際stdout日誌輸出大小:1.8 MB
2。增加py4j日誌級別減少stdout日誌輸出
logging.getLogger (py4j.java_gateway) .setLevel (logging.ERROR)
減少stdout日誌輸出大小:390 KB
3所示。使用log4j來編寫應用程序日誌
謝謝你的回答
寫完這個問題,我使用“spark.databricks.driver進行了測試。disableScalaOutput”:“真正的”。不幸的是這並沒有幫助解決這個問題。
關於收集()“我們與0實施運行工作,我們隻使用火花加載一些鑲花的數據集,然後在python中處理。我們使用“spark.sql.execution.arrow.pyspark。啟用”:“true”期間提高性能轉換從火花DataFrames熊貓。增加“spark.driver。記憶”和“spark.driver。maxResultSize”沒有幫助。