你好。有人能解釋為什麼迭代Pyspark dataframe遠遠低於在熊貓dataframe嗎?
Pyspark
df_list = df.collect ()
指數的範圍(0,len (df_list)):
.....
熊貓
df_pnd = df.toPandas ()
指數,行df_pnd.iterrows ():
....
提前謝謝你
嗨@ELENI GEORGOUSI,
遍曆一個PySpark DataFrame可以低於遍曆一個熊貓DataFrame幾個原因:
總之,遍曆一個PySpark DataFrame可以低於遍曆一個熊貓DataFrame由於不同的設計和實現。
如果你需要使用較小的數據集,可以放入內存中,熊貓性能的原因可能是一個更好的選擇。
但是,如果需要處理更大的數據集,不能適應記憶,PySpark可伸縮性和分布式處理的可能是必要的。
嗨@ELENI GEORGOUSI,
遍曆一個PySpark DataFrame可以低於遍曆一個熊貓DataFrame幾個原因:
總之,遍曆一個PySpark DataFrame可以低於遍曆一個熊貓DataFrame由於不同的設計和實現。
如果你需要使用較小的數據集,可以放入內存中,熊貓性能的原因可能是一個更好的選擇。
但是,如果需要處理更大的數據集,不能適應記憶,PySpark可伸縮性和分布式處理的可能是必要的。