pyspark.RDD.groupByKey¶
-
抽樣。
groupByKey
( numPartitions:可選(int) = None, partitionFunc:可調用的[[K], int] = <函數portable_hash > )→pyspark.rdd.RDD(元組(K,Iterable(V] ] ] ¶ -
組中的每個鍵值抽樣為一個序列。Hash-partitions抽樣結果與numPartitions分區。
筆記
如果你是為了執行分組聚合(比如一筆或平均)在每個鍵,使用reduceByKey或aggregateByKey將提供更好的性能。
例子
> > >抽樣=sc。並行化(((“一個”,1),(“b”,1),(“一個”,1)))> > >排序(抽樣。groupByKey()。mapValues(len)。收集())[(' a ', 2), (' b ', 1))> > >排序(抽樣。groupByKey()。mapValues(列表)。收集())((“a”, [1]), (“b”, [1])]