嗨@Janga Reddy,磚提供了一些工具來編排複雜的工作,涉及許多高效轉換和依賴關係。
這裏有一些建議如何實現節約成本和容易re-runnable編排:
- 使用磚的工作:磚工作允許你定期調度和運行筆記本,腳本和二進製文件。通過工作,可以自動執行複雜的工作,確保他們一致且高效地運行。您還可以使用工作設置不同的工作之間的依賴關係,確保他們在正確的順序運行。
- 使用磚三角洲湖:三角洲湖是一個開源存儲層,數據可靠性湖泊。它提供ACID事務、可擴展的元數據處理和統一的批處理和流處理。通過使用三角洲湖,您可以確保您的數據始終是一致的和可用於分析。
- 使用磚的筆記本:筆記本電腦是一個偉大的方式來開發和測試轉換。使用筆記本電腦讓你快速原型的新想法,與他人合作,和調試問題。一旦你確定你的轉換,你可以把它們移到生產環境中,如磚的工作。
- 使用磚的api:磚磚api提供的編程訪問服務。你可以使用api自動化工作的部署和轉換並監視它們的執行。
- 使用磚AutoML:磚AutoML允許您自動機器學習管道,從模型數據準備部署。通過使用AutoML,可以節省時間和降低成本的開發和部署的機器學習模型。
關於節約成本和re-runnability,一個高效的數據處理框架,例如Apache火花™,必須使用橫向擴展到處理大量數據。此外,最好利用雲存儲選項,比如Amazon S3或者Azure Blob存儲,存儲你的數據,因為它們提供低成本、高度可伸縮的存儲選項。最後,它是必要的監控和優化你的工作性能和成本使用工具如磚工作監控和優化您的集群大小和配置。