解決:Re:工作失敗後運行時升級頁2 -磚- 14193

NicolasEscobar · ‎09-30-2021

我有工作在磚運行時的7.3 LTS運行沒有問題。當我升級到8.3失敗錯誤從一個UDF是拋出一個異常:“pyspark.serializers.SerializationError”……SparkContext應該隻被創建和訪問驅動程序

我在筆記本上用applyInPandas施加一個UDF每組。在這個UDF我把數據從雪花利用火花會話(spark.read.format(…))我明白失敗的原因。

我的問題是,為什麼它在7.3 LTS工作現在不工作嗎?改變了什麼?

謝謝,

NicolasEscobar · ‎03-07-2022

肖恩感謝你的回答,很明顯。

我隻是想知道為什麼之前執行的代碼沒有錯誤和預期的輸出,但現在我明白,這是因為之前沒有限製,這改變了火花3.1發布後,當Sandeep提及。

Santhosh_Holla · ‎07-06-2022

嗨@Sean歐文謝謝強調這一點。請您提供一些示例代碼當你提到“不是不小心抓住SparkContext或SparkSession UDF”。謝謝

sean_owen · ‎07-06-2022

有1000種方法這可能發生,所以不是真正的,但是它們都是同樣的想法:你不能引用SparkContext或SparkSession對象,直接或間接地在一個UDF。簡單,你不能使用UDF的代碼。

User16873042682 · ‎03-01-2022

增加@Sean歐文的評論,這是工作的唯一原因是優化器評估這個本地而不是創建一個上下文執行和評估。