了解加盟PySpark /磚
PySpark,“加入”操作結合行從兩個或兩個以上的數據集的基於一個共同的關鍵。它允許您將來自不同數據源的數據合並到一個單獨的數據集和潛在執行轉換的數據存儲或進一步處理之前。
這裏是一個例子在PySpark如何使用連接操作:
從pyspark。sql導入SparkSession #創建SparkSession火花= SparkSession.builder.appName (JoinExample) .getOrCreate() #數據加載到兩個DataFrames df1 = spark.read.csv (“file1。csv”,標題= True) df2 = spark.read.csv (“file2。csv”,頭= True) #加入df3 = df1數據在一個共同的關鍵。加入(df2 df1。鍵= = df2.key) #隻選擇你想要的列和重命名他們如果需要df4 = df3.select (df1.col1.alias (“col1_df1”), df2.col2.alias (“col2_df2”)) #顯示結果df4.show ()
在這個例子中,我們首先創建一個SparkSession然後兩個CSV文件的數據加載到兩個獨立DataFrames調用
df1和df2
。然後,我們執行連結操作兩個DataFrames使用
連接方法,指定的鍵列df1應該是匹配的
df2鍵列
結果DataFrame df3,包含所有列
df1 df2,行匹配的鑰匙將組合成一行。我們可以使用選擇方法隻選擇我們想要的列和潛在使用別名的方法重命名它們。最後,我們使用顯示方法顯示結果DataFrame。
重要的是要注意,為了執行連結操作,這兩個數據集必須有一個共同的鍵列。鍵列用於匹配的行從不同的數據集,以及由此產生的數據集隻包含匹配的行鍵。
您還可以指定額外的連接操作的條件,如加入的類型(例如,內部,外部,左,右)和任何額外的過濾器適用於加入數據集。
如果你喜歡這篇文章請點擊按鈕
謝謝
Aviral Bhardwaj