我從container1檢索兩個文件,把它們和合並之前寫入container2在同一個存儲賬戶Azure。我安裝container1 unmouting和安裝countainer2前寫作。
我的代碼寫拚花
spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)df_spark.coalesce (1) .write.option(“標題”,真的)\ .partitionBy (ZMTART) \ .mode(“覆蓋”)\ .parquet (“/ mnt / temp /”)
我得到以下錯誤container2寫作時:
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Py4JJavaError回溯(最近調用最後)<命令- 3769031361803403 > <細胞係:2 > ()1 spark.conf.set (“spark.sql.sources.partitionOverwriteMode”、“動態”)- - - - - > 2 df_spark.coalesce (1) .write.option(“標題”,真的)\ 3 .partitionBy (ZMTART) \ 4 .mode(“覆蓋”)\ 5 .parquet (/ mnt / temp /) /磚/火花/ python / pyspark / instrumentation_utils。py在包裝器(* args, * * kwargs) 46開始= time.perf_counter() 47個試題:- - - - - - > 48 res = func (* args, * * kwargs) 49記錄器。function_name log_success (50 module_name class_name, time.perf_counter()——開始,簽名/磚/火花/ python / pyspark / sql /讀寫。py鋪(自我、路徑模式,partitionBy,壓縮)1138年self.partitionBy (partitionBy) 1139 self._set_opts(壓縮(壓縮)- > 1140 self._jwrite.parquet(路徑)1141
奇怪的是寫同一dataframe container1是沒問題,即使使用相同的代碼編寫,但不同的山。生成隨機數據的腳本和寫作container2也沒問題。顯然,有一個問題,具體dataframe特定的容器。
我相當的新磚,所以請讓我知道如果有需要的額外信息。