你好磚社區,
我工作在一個管道和想實現一個常見的用例使用三角洲生活表。管道應包括以下步驟:
這個實現的動機是處理新數據作為火花批,因為火花流不支持許多通常需要聚合。此外,這種方法的目的是處理管道故障可能出現的由於新部署或意想不到的變化數據。這些變化可能會打破或處理數據的轉換,導致停機時間。部署補丁後,管道應該恢複通過加載和處理失敗的批次沒有再計算曆史上的一切。這種恢複機製有助於避免巨大的成本在處理大量數據時。
我尋求指導的最佳實踐實現這個場景中使用的三角洲生活表。特別是,我怎麼能確保管道正確處理之前失敗的批次和流程以及新數據,同時也提供了強勁複蘇機製?
任何幫助或見解將不勝感激!
提前謝謝你!
@Valentin Rosca:
三角洲生活表可用於實現以下方法:你描述的場景
遵循這些最佳實踐,利用特征的三角洲生活表,您可以實現一個健壯的管道處理新數據批火花,從失敗中恢複,並提供可靠的數據處理你的用例。
遵循這些最佳實踐,利用特征的三角洲生活表,您可以實現一個健壯的管道處理新數據批火花,從失敗中恢複,並提供可靠的數據處理你的用例。- >我們願意但似乎非常有限和最佳實踐,我們能做的尤其是說最佳實踐文檔缺乏適當的示例。