取消
顯示的結果
而不是尋找
你的意思是:

最佳實踐在銅/金/銀(圖案模型)數據分類湖?

User16776430979
新的貢獻者三世

的最好方法是組織數據湖和δ設置?我們試圖用青銅,白銀和黃金分類策略。主要的問題是我們如何知道分類裏麵的數據是磚如果沒有實際物理位置叫青銅,白銀和黃金?命名約定/推薦的策略是什麼磚?

3回複3

Kaniz
社區經理
社區經理

嗨@Josephine Ho數據庫對象命名規範和編碼標準是至關重要的維持一致性,可讀性和可管理性數據工程項目。

在磚,你可以使用命名約定和編碼規範的青銅、白銀和黃金層。

  • 通用命名約定:
    • 對所有對象名稱使用小寫字母(表、視圖、列等)。
    • 單獨的單詞下劃線可讀性。
    • 是描述性和簡潔。使用短語,表示對象的目的。
    • 避免使用保留關鍵字或特殊字符。
  • 銅層(原始數據層):
    • 表的命名約定:使用前綴“bronze_”其次是源係統或數據來源和對象的命名為例,bronze_salesforce_opportunities。
    • 文件格式:以三角洲湖格式存儲數據,利用其性能,ACID事務,模式演化的能力。
    • 分區:使用分區列最適合您的數據訪問模式,如日期或時間戳。
  • 銀層(淨化和濃縮數據層):
    • 表的命名約定:使用前綴“silver_”其次是功能區域或業務領域和對象的命名為例,silver_finance_transactions。
    • 文件格式:使用三角洲湖格式來存儲數據。
    • 分區:選擇合適的分區列,考慮數據訪問模式和性能的影響。
    • 數據清理和濃縮:應用必要的數據質量檢查,類型轉換和濃縮過程。
    • 文檔:文檔轉換邏輯、淨化和濃縮過程中任何假設。
  • 金層(聚合的數據層和業務準備):
    • 表的命名約定:使用前綴“gold_”其次是功能區域或業務領域和對象的名字。例如,gold_sales_monthly_summary。
    • 文件格式:以三角洲湖格式存儲數據。
    • 分區:選擇合適的分區列,考慮數據訪問模式和性能的影響。
    • 聚合:執行聚合和計算所需的業務需求。
    • 文檔:文檔聚合邏輯和過程期間做出任何假設。
  • 組織代碼:
    • 每一層單獨的代碼到不同的筆記本(青銅、白銀、黃金)易於維護和保持一個清晰的層次結構。
    • 遵循最佳代碼格式化和可讀性實踐,如用戶評論,一致的縮進,和模塊化。
    • 使用Git版本控製係統來管理你的代碼庫和跟蹤變化。

以下命名約定和編碼標準允許您維護一個結構良好的、容易理解的,可維護的數據在磚工程項目。

@Kaniz,謝謝你的命名約定的詳細指導方針青銅、白銀和黃金在磚層。這些約定維持一致性和可管理性當然是有價值的。

我想詢問結構化數據庫的最佳實踐和模式的名字,尤其是在管理表的上下文內圖案架構在三角洲湖。

與非托管表,文件夾結構允許我們隔離的金,銀,銅層有效。然而,隨著管理表,我們沒有控製文件夾結構。

有區別在維護管理或非托管表之間的命名約定,特別是在實現大獎章架構?你能提供見解或建議如何解決這個工程環境,以確保一個結構良好的、可維護的數據?

你對這件事情的指導將不勝感激。

謝謝你!
內存

Kaniz
社區經理
社區經理

@ramdhilip,

兩個表托管和非托管,磚的生態係統的一部分,為大獎章的架構。不過,文件沒有指定命名約定獨家要麼表類型。
關鍵要記住:

•管理表:磚管理數據和元數據。當一個表被刪除管理,基礎數據也刪除。
•非托管表:磚隻管理元數據。當一個非托管表被刪除時,底層數據仍不受影響。
的大獎章的架構:

•銅層:包含原始的,未經驗證的數據。
•銀層:包含驗證和豐富的數據。
•金層:包含高度精煉和聚合數據。然而,這些表的命名約定可能取決於組織的內部數據治理策略,而不是是否托管或非托管的表。
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map