我們正在實施一個lakehouse架構和使用筆記本從對象存儲轉換數據。大多數時候我們的源數據庫的每個表在對象存儲一個文件夾。
我們有各種筆記本結構如下麵
原始文件夾包含筆記本為每個表讀取數據對象存儲和創建增量表。
MasterRawNotebook包含為每個調用Table1_notebook生筆記本,一個細胞Table2_Notenook使用%
所以當我們執行MasterRawNotebook它運行每一個筆記本,在創建數據庫表中數據磚。
@Kuldeep Chitrakar
首先——而不是通過MasterRawNotebook運行筆記本一個接一個,你可以使用工作流- >工作(或任何其他調度器、例Airlfow ADF)並行運行,節省一些時間。
為每個表創建筆記本——加載原始銅可以創建一個通用筆記本,會為你做這項工作(這取決於原始文件類型,但交貨。拚花是可行的)。編寫代碼盡可能通用。無論如何,doint每個表一個筆記本也不錯。
文件夾結構,你需要找到你自己的做事的方式
這就是我使用(它可能不同項目):