09-30-202103:54我
我有工作在磚運行時的7.3 LTS運行沒有問題。當我升級到8.3失敗錯誤從一個UDF是拋出一個異常:“pyspark.serializers.SerializationError”……SparkContext應該隻被創建和訪問驅動程序
我在筆記本上用applyInPandas施加一個UDF每組。在這個UDF我把數據從雪花利用火花會話(spark.read.format(…))我明白失敗的原因。
我的問題是,為什麼它在7.3 LTS工作現在不工作嗎?改變了什麼?
謝謝,
03-07-202203:59我
肖恩感謝你的回答,很明顯。
我隻是想知道為什麼之前執行的代碼沒有錯誤和預期的輸出,但現在我明白,這是因為之前沒有限製,這改變了火花3.1發布後,當Sandeep提及。
07-06-2022上午07:34
嗨@Sean歐文謝謝強調這一點。請您提供一些示例代碼當你提到“不是不小心抓住SparkContext或SparkSession UDF”。謝謝
07-06-202207:39我
有1000種方法這可能發生,所以不是真正的,但是它們都是同樣的想法:你不能引用SparkContext或SparkSession對象,直接或間接地在一個UDF。簡單,你不能使用UDF的代碼。
03-01-202203:33我
增加@Sean歐文的評論,這是工作的唯一原因是優化器評估這個本地而不是創建一個上下文執行和評估。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。