你好維爾納,
謝謝你的回答。
我實現你的建議,我正在尋求的解決方案,但不確定哪一個是更好的性能。
我正在尋求的解決方案是:
/ /我的數據存儲在dfDups / /創建一個臨時視圖dfDups .createOrReplaceTempView (dup) / /創建一個新的df沒有val dfNoDups = sqlContext“副本”。從dup sql (“”“select * Y, Y。Y_N_Col= 'Y' union all select * from Dups as N where N.Y_N_Col = 'N' and not exists ( select 1 from Dups as Y where Y.Y_N_Col = 'Y' and Y.Key1 = N.Key1 and Y.Key2 = N.Key2 ) """)
謝謝,
蒂亞戈R。