pyspark.RDD.join¶
-
抽樣。
加入
( 其他:pyspark.rdd.RDD(元組(K,U]],numPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(元組(K,元組(V,U] ] ] ¶ -
返回一個包含所有成對的抽樣元素匹配的鑰匙自我和其他。
每一對元素將返回(k, (v1、v2))元組,(k, v1)的地方自我和(k, v2)其他。
跨集群執行散列連接。
例子
> > >x=sc。並行化(((“一個”,1),(“b”,4)))> > >y=sc。並行化(((“一個”,2),(“一個”,3)))> > >排序(x。加入(y)。收集())[(a (1、2)), (a, (1、3)))