pyspark.RDD.aggregate

抽樣。 ( zeroValue:U,seqOp:可調用的((U,T],U],combOp:可調用的((U,U],U] )→你

集合的元素每個分區,然後所有的分區結果,使用給定的組合功能和一個中立的“零價值。”

的函數op (t1,t2)允許修改t1並返回它的結果值,以避免對象分配;然而,它不應該修改t2

第一個函數(seqOp)可以返回不同的結果類型,U,比這個抽樣的類型。因此,我們需要一個操作合並T U和一個操作合並成一個兩個U

例子

> > >seqOp=(λx,y:(x(0]+y,x(1]+1))> > >combOp=(λx,y:(x(0]+y(0),x(1]+y(1)))> > >sc並行化([1,2,3,4])((0,0),seqOp,combOp)(4)10> > >sc並行化([])((0,0),seqOp,combOp)(0,0)