如何實現源到目標ETL映射細胞株……-磚- 32770

anonymous1 · ‎09-01-2022

架構設計:

源:Miltiple CSV文件(SourceFile1 SourceFile2)

目標:三角洲表像(Target_Table)

Excel文件:ETL_Mapping_Sheet

TargetTable,文件列:SourceTable, SourceColumn TargetColum MappingLogic

從表或MappingLogic列包含(SELECT *

SELECT * FROM SourceFile1左加入SourceFile2 B

在A.ID=B.ID像SQL語句)。

什麼:我怎麼能使用MappingLogic cloumns dataframe構建映射邏輯值? ?

我可以直接執行SQL語句使用列值? ?

我的方法:

從一個ETL映射表更新樣本行:

anonymous1 · ‎09-19-2022

@Aman Sehgal@Hubert杜德克@Piper威爾遜@Werner Stinckens

有人可以請檢查這個查詢? ?

werners1 · ‎09-20-2022

我難以理解這個問題,所以請糾正我:

如果我理解正確的話你一個excel充滿sql表達式(或字段映射源庫)和要使用的內容,excel將它插入代碼?

在技術上我認為這是可能的,你可以讀取excel文件成python或火花DF和提取的值與收集()函數(遠東)。

但是這真的是你想去的路嗎?因為你把你的映射邏輯到excel文件,這是地獄IMO打開大門。

我寧願去selectExpr()表達式。這樣的映射駐留到代碼中,您可以檢查到git,版本控製等。

anonymous1 · ‎09-20-2022

謝謝你的回應。

你的理解是正確的。

我更新了示例etl,映射。

如您所見,這個映射表包含sql語句目標值和我有500映射像這樣我想直接使用這個映射表的邏輯

你不認為這將是一個好方法嗎? ?

werners1 · ‎09-20-2022

一位智者曾經說過:暴力和excel從來都不是答案

excel方法的問題是,它將很難算出數據沿襲。

您還需要谘詢2位置:筆記本和excel文件。

同樣,如果別人打開excel文件,您必須編輯嗎?諸如此類。

國際海事組織excel對數據分析有好處,它不屬於工程數據。

磚