dataFrame拆分為1 mb的塊並創建一個singl……-磚- 5944

rusty9876543 · ‎04-12-2023

嗨,我有一個dataFrame我已經能夠轉換成結構每一行是一個JSON對象。

我希望能夠把數據幀分割成1 mb的塊。一旦我有塊,我想在每個各自的所有行塊添加到一個JSON數組。

UmaMahesh1 · ‎04-13-2023

#設置塊大小字節(1 mb = 1048576字節)chunk_size = 1048576 #修複所需的分區數量基於塊大小num_partitions = (df.rdd。地圖(λx: len (str (x))) .sum () / / chunk_size) + 1 #重新分區DataFrame使用maxRecordsPerFile選項df_chunks = df.repartition .write (num_partitions)。選項(“maxRecordsPerFile chunk_size) .mode(“覆蓋”).parquet (“/ output_path”)

你可以把dataframe使用上麵的方法。

一旦你有分區,遍曆每個分區和indiviudally收集行。然後,您可以為每個分區添加這些行。

# DAIS2023

rusty9876543 · ‎04-13-2023

謝謝這是非常有用的!至於“遍曆每個分區和收集單獨的行。然後您可以添加這些行每個分區”這是一個簡單的for循環或有推薦/優化的方式遍曆和收集的行?

匿名 · ‎04-16-2023

@Uma Maheswara Rao Desula:很高興看到你參與抽獎活動比賽!

rusty9876543 · ‎04-13-2023

謝謝這是非常有用的!至於“遍曆每個分區和收集單獨的行。然後您可以添加這些行每個分區”這是一個簡單的for循環或有推薦/優化的方式遍曆和收集的行?

磚

dataFrame拆分為1 mb的塊和創建一個json數組中的每一行作為一個數組元素