我的兩個dataframes樣子new_df2_record1 new_df2_record2和預期輸出dataframe我希望就像new_df2:
我嚐試了如下的代碼:
如果我打印new_df2的前5行,它使輸出像預期的那樣但是我不能打印總數或總列數它包含的數量。給出了錯誤:
“錯誤執行人:在階段任務2.0 6.0 (TID異常 org.apache.spark.api.python。最後PythonException:回溯(最近電話):python文件“D: \火花\ \ lib \ pyspark.zip \ pyspark \工人。py”, 604行,在主python文件“D: \火花\ \ lib \ pyspark.zip \ pyspark \工人。py”, 596行,在過程python文件“D: \火花\ \ lib \ pyspark.zip \ pyspark \序列化器。在dump_stream py”, 259行出現(itertools vs =列表。islice(迭代器,批處理))python文件“D: \火花\ \ lib \ pyspark.zip \ pyspark \序列化器。在_load_stream_without_unbatching py”, 326行“批量:(% d % d)”% (len(key_batch), len(val_batch)))ValueError:不能反序列化PairRDD不同批次的產品數量:(4096、8192)“從pyspark.sql。類型進口StructTypenew_df2_record2 = new_df2_record2.drop (record1, record2)模式= StructType (new_df2_record1.schema。字段+ new_df2_record2.schema.fields) df1df2 = new_df2_record1.rdd.zip (new_df2_record2.rdd)。地圖(λx: x [0] + [1]) new_df2 =火花。createDataFrame (df1df2模式)
new_df2.show(5)打印(new_df2.count (), len (new_df2.columns))