pyspark.RDD.aggregateByKey¶
-
抽樣。
aggregateByKey
( zeroValue: U, seqFunc:調用(U, V), U, combFunc:調用(U, U), U, numPartitions:可選(int) = None, partitionFunc:可調用的[[K], int] = <函數portable_hash > )→pyspark.rdd.RDD(元組(K,U] ] ¶ -
聚合每個鍵的值,使用組合函數和一個中立的“零值”。這個函數可以返回不同的結果類型,U,比在這個抽樣值的類型,V .因此,我們需要為U V合並成一個操作,一個操作合並兩個U,前者操作用於合並值在一個分區中,而後者用於合並分區之間的值。為了避免內存分配,這些函數都是允許修改並返回它們的第一個參數,而不是創建一個新的你。