#設置塊大小字節(1 mb = 1048576字節)chunk_size = 1048576 #修複所需的分區數量基於塊大小num_partitions = (df.rdd。地圖(λx: len (str (x))) .sum () / / chunk_size) + 1 #重新分區DataFrame使用maxRecordsPerFile選項df_chunks = df.repartition .write (num_partitions)。選項(“maxRecordsPerFile chunk_size) .mode(“覆蓋”).parquet (“/ output_path”)
你可以把dataframe使用上麵的方法。
一旦你有分區,遍曆每個分區和indiviudally收集行。然後,您可以為每個分區添加這些行。
# DAIS2023
謝謝這是非常有用的!至於“遍曆每個分區和收集單獨的行。然後您可以添加這些行每個分區”這是一個簡單的for循環或有推薦/優化的方式遍曆和收集的行?