取消
顯示的結果
而不是尋找
你的意思是:

Trasform SQL遊標使用Pyspark磚

elgeo
重視貢獻二世

我們有一個光標在DB2在每個循環讀取數據從表2。每個循環結束時,插入到目標表的數據後,我們更新這兩個表中的記錄與每個循環之前移動到下一個循環。一個指示性的例子是以下:

獲取CUR1 V_A1, V_A2、V_C1 V_C3, V_M1 V_M2

選擇從TABLE_1 V_M1 A1 = V_A1

從TABLE_2選擇V_M2 C1 = V_C1的地方

如果.....那麼其他V_B1 = V_M1-V_M2 ....

插入目標……值(V_A1, V_A2,…)

更新TABLE_1組V_M1 = V_M1 - V_B1

更新TABLE_2組V_M2 = V_M2 - V_B1

獲取CUR1 V_A1, V_A2、V_C1 V_C3, V_M1 V_M2

結束時

關閉CUR1

注意,A1, C1整個數據並不是唯一的。

請建議使用Pyspark變換方法嗎?性能也很重要,因為我們談論大量數據。我看到抽樣是不可變的,以防我們RDD-map選項。

提前謝謝你

2回答2

匿名
不適用

@ELENI GEORGOUSI:

  1. 兩個表的數據加載到PySpark DataFrames: df1 df2
  2. 加入兩個DataFrames共同列:他們稱之為df
  3. 定義一個用戶定義函數(UDF)實現你的IF語句
  4. 添加一個新列的DataFrame計算使用UDF
  5. 將數據插入到目標表
  6. 更新的源表:

希望這可以給你一個框架如何思考和遙控器。

Vidula_Khanna
主持人
主持人

嗨@ELENI GEORGOUSI

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map