取消
顯示的結果
而不是尋找
你的意思是:

高效地編排數據磚工作

Phani1
因素二世

嗨,團隊,

如何高效能編排數據磚工作這涉及到一個很多轉換、依賴和複雜性嗎?

在有很多來源SSIS包有複雜的依賴關係和更多的轉換。

我們有以下選項。

1)實現邏輯使用數據磚磚筆記本和進度的數據工作,工作流

2)實現的邏輯在印度生物技術部印度生物技術部和進度

3)實現的邏輯數據磚筆記本利用ADF和進度

你能建議什麼是最好的方法來實現更可行的重新運行和節約成本嗎?請分享如果有任何參考文檔/鏈接。

3回複3

Kaniz
社區經理
社區經理

嗨@Janga Reddy,磚提供了一些工具來編排複雜的工作,涉及許多高效轉換和依賴關係。

這裏有一些建議如何實現節約成本和容易re-runnable編排:

  1. 使用磚的工作:磚工作允許你定期調度和運行筆記本,腳本和二進製文件。通過工作,可以自動執行複雜的工作,確保他們一致且高效地運行。您還可以使用工作設置不同的工作之間的依賴關係,確保他們在正確的順序運行。
  2. 使用磚三角洲湖:三角洲湖是一個開源存儲層,數據可靠性湖泊。它提供ACID事務、可擴展的元數據處理和統一的批處理和流處理。通過使用三角洲湖,您可以確保您的數據始終是一致的和可用於分析。
  3. 使用磚的筆記本:筆記本電腦是一個偉大的方式來開發和測試轉換。使用筆記本電腦讓你快速原型的新想法,與他人合作,和調試問題。一旦你確定你的轉換,你可以把它們移到生產環境中,如磚的工作。
  4. 使用磚的api:磚磚api提供的編程訪問服務。你可以使用api自動化工作的部署和轉換並監視它們的執行。
  5. 使用磚AutoML:磚AutoML允許您自動機器學習管道,從模型數據準備部署。通過使用AutoML,可以節省時間和降低成本的開發和部署的機器學習模型。

關於節約成本和re-runnability,一個高效的數據處理框架,例如Apache火花™,必須使用橫向擴展到處理大量數據。此外,最好利用雲存儲選項,比如Amazon S3或者Azure Blob存儲,存儲你的數據,因為它們提供低成本、高度可伸縮的存儲選項。最後,它是必要的監控和優化你的工作性能和成本使用工具如磚工作監控和優化您的集群大小和配置。

Vidula_Khanna
主持人
主持人

嗨@Janga Reddy

希望一切進行得很順利。

隻是想檢查如果你能解決你的問題。如果是的,你會很高興的答案標記為最好,其他成員可以找到解決方案更快嗎?如果不是,請告訴我們,我們可以幫助你。

幹杯!

Phani1
因素二世

我的問題是,我們如何可靠地編排多個磚工作/工作流運行在一個混合的延遲和可以寫入相同的金銀δ表?請建議最好的方法和實踐是一樣的嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map