pyspark.RDD.fullOuterJoin¶
-
抽樣。
fullOuterJoin
( 其他:pyspark.rdd.RDD(元組(K,U]],numPartitions:可選(int]=沒有一個 )→pyspark.rdd.RDD(元組(K,元組(可選(V] ,可選(U] ] ] ] ¶ -
執行一個右外連接自我和其他。
為每個元素(k、v)自我,由此產生的抽樣要麼包含所有雙(k, v, w) w其他或兩人(k, (v,)如果沒有元素其他有關鍵的k。
同樣的,對於每一個元素(k, w)其他,由此產生的抽樣要麼包含所有雙(k, v, w) v自我或兩人(k,(沒有,w))如果沒有元素自我有關鍵的k。
Hash-partitions結果抽樣為給定數量的分區。
例子
> > >x=sc。並行化(((“一個”,1),(“b”,4)))> > >y=sc。並行化(((“一個”,2),(“c”,8)))> > >排序(x。fullOuterJoin(y)。收集())[(a (1、2)), (“b”,(沒有)),(“c”,(沒有,8)))