取消
顯示的結果
而不是尋找
你的意思是:

我們如何比較兩個dataframes在火花scala找到區別這兩個文件,哪個列? ?和價值?。

shampa
新的因素

我有兩個文件,我創建了兩個dataframes prod1和prod2。我需要找的記錄與列名和價值觀不匹配的dfs。

id_sk主鍵全部關口是字符串數據類型

dataframe 1 (prod1)

id_sk | | uuid的名字

1 | 10 |

2 | 20 | b

3 | | 30 c

dataframe 2 (prod2)

id_sk | | uuid的名字

2 | 20 | b-upd

3 | 30-up | c

4 | | 40 d

所以我需要結果dataframe在下麵的格式。

id | col_name |值

2 |名稱| b, b-upd

30-up | 3 | uuid 30日

我做了一個內連接和比較了無與倫比的記錄。

我得到結果如下:

id_sk | uuid_prod1 | uid_prod2 | name_prod1 | name_prod2

2 | 20 b 20 | | | b-upd

3 | 30 | 30-up | | c

val commmon_rec = prod1.join (prod2 prod1 (“id_sk”) = = = prod2 (“id_sk”)、“內在”).select (prod1 .alias (“id_sk”) (“id_sk_prod1”), prod1 (uuid) .alias (“uuid_prod1”), prod1 .alias(“名字”)(“name_prod1”), prod1 .alias(“名字”)(“name_prod2”)

val比較=火花。sql(“選擇……從common_rec col_prod1 < > col_prod2”)

1回複1

manojlukhi
新的貢獻者二世

在火花SQL使用全外連接

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map