pyspark.RDD.repartition¶
-
抽樣。
重新分區
( numPartitions:int )→pyspark.rdd.RDD(T] ¶ -
返回一個新的抽樣numPartitions分區。
可以增加或減少抽樣水平的並行性。在內部,它使用一個洗牌重新分配數據。如果你減少分區的數量在這個抽樣,考慮使用合並,它可以避免執行洗牌。
例子
> > >抽樣=sc。並行化([1,2,3,4,5,6,7),4)> > >排序(抽樣。偷()。收集())[[1],[2、3],[4 5],[6、7]]> > >len(抽樣。重新分區(2)。偷()。收集())2> > >len(抽樣。重新分區(10)。偷()。收集())10