取消
顯示的結果
而不是尋找
你的意思是:

如何實現源到目標ETL PySpark使用增量表映射表嗎

anonymous1
新的貢獻者三世

架構設計:

:Miltiple CSV文件(SourceFile1 SourceFile2)

目標:三角洲表像(Target_Table)

Excel文件:ETL_Mapping_Sheet

TargetTable,文件列:SourceTable, SourceColumn TargetColum MappingLogic

從表或MappingLogic列包含(SELECT *

SELECT * FROM SourceFile1左加入SourceFile2 B

A.ID=B.ID像SQL語句)。

什麼:我怎麼能使用MappingLogic cloumns dataframe構建映射邏輯值? ?

我可以直接執行SQL語句使用列值? ?

我的方法:

  1. Excel文件加載到dataframe (df_mapping)
  2. 賦值的MappingLogic cloumns (SQL Select語句)到一個變量中
  3. 調用spark.sql (variablename)時,它將執行SQL查詢,而不是100%確定如何做到這一點

從一個ETL映射表更新樣本行:

圖像

7回複7

anonymous1
新的貢獻者三世

@Aman Sehgal@Hubert杜德克@Piper威爾遜@Werner Stinckens

有人可以請檢查這個查詢? ?

werners1
尊敬的貢獻者三世

我難以理解這個問題,所以請糾正我:

如果我理解正確的話你一個excel充滿sql表達式(或字段映射源庫)和要使用的內容,excel將它插入代碼?

在技術上我認為這是可能的,你可以讀取excel文件成python或火花DF和提取的值與收集()函數(遠東)。

但是這真的是你想去的路嗎?因為你把你的映射邏輯到excel文件,這是地獄IMO打開大門。

我寧願去selectExpr()表達式。這樣的映射駐留到代碼中,您可以檢查到git,版本控製等。

anonymous1
新的貢獻者三世

謝謝你的回應。

你的理解是正確的。

我更新了示例etl,映射。

如您所見,這個映射表包含sql語句目標值和我有500映射像這樣我想直接使用這個映射表的邏輯

你不認為這將是一個好方法嗎? ?

werners1
尊敬的貢獻者三世

一位智者曾經說過:暴力和excel從來都不是答案:slightly_smiling_face:

excel方法的問題是,它將很難算出數據沿襲。

您還需要谘詢2位置:筆記本和excel文件。

同樣,如果別人打開excel文件,您必須編輯嗎?諸如此類。

國際海事組織excel對數據分析有好處,它不屬於工程數據。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map