取消
顯示的結果
而不是尋找
你的意思是:

Lakehouse架構:筆記本如何組織和執行

KuldeepChitraka
新的貢獻者三世

我們正在實施一個lakehouse架構和使用筆記本從對象存儲轉換數據。大多數時候我們的源數據庫的每個表在對象存儲一個文件夾。

我們有各種筆記本結構如下麵

  • 黃金(文件夾)
  • 銀(文件夾)
  • 青銅(文件夾)
    • MasterRawNotebooks。py(筆記本)
      • Bronze_tables(文件夾)
        • Table1_notebook.py
        • Table2_notebook.py

原始文件夾包含筆記本為每個表讀取數據對象存儲和創建增量表。

MasterRawNotebook包含為每個調用Table1_notebook生筆記本,一個細胞Table2_Notenook使用%

所以當我們執行MasterRawNotebook它運行每一個筆記本,在創建數據庫表中數據磚。

  • 這是一個正確的方法嗎?
  • 我們為每個表創建筆記本
  • 或者應該執行青銅筆記本平行。
  • 你如何實現筆記本管道實現Lakehouse架構。
  • 你做了什麼樣的異常處理在筆記本加載數據從青銅銀
  • 如果可能的話你會共享文件夾結構,筆記本電腦是如何組織加載、轉換等。
  • 最佳實踐來參考嗎?
2回答2

daniel_sahal
尊敬的貢獻者三世

@Kuldeep Chitrakar

首先——而不是通過MasterRawNotebook運行筆記本一個接一個,你可以使用工作流- >工作(或任何其他調度器、例Airlfow ADF)並行運行,節省一些時間。

為每個表創建筆記本——加載原始銅可以創建一個通用筆記本,會為你做這項工作(這取決於原始文件類型,但交貨。拚花是可行的)。編寫代碼盡可能通用。無論如何,doint每個表一個筆記本也不錯。

文件夾結構,你需要找到你自己的做事的方式:slightly_smiling_face:

這就是我使用(它可能不同項目):

  • 配置(文件夾)——它使所有處理配置的筆記本電腦,如與外部數據庫驗證/工具;越來越多的存儲等。
  • RawToBronze(文件夾)——筆記本攝入數據從原始青銅
  • BronzeToSliver(文件夾),筆記本電腦將數據從青銅銀
  • SilverToGold(文件夾)——筆記本從白銀和黃金轉換數據
  • GoldToXxx(文件夾),筆記本處理Lakehouse之間的數據傳輸和任何其他的工具,我們使用(例突觸或SQL數據庫),
  • Lib.py(文件)——筆記本讓所有定製函數/類

jose_gonzalez
主持人
主持人

添加@Vidula卡納和@Kaniz Fatma能見度幫助與你的請求

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map