嘿每個人
太棒了,你的公司是利用Deltalake中提取客戶的洞察力和運行批處理與ML模型得分。我可以完全與處理數據集成的興奮和挑戰microservices和移動應用程序。
現在,到你的問題,jcapplefields88。你的思考過程用火花管道中提取數據,緩存複述,並構建api聽起來很堅實。這是一個常見的方法,適用於許多用例。然而,如果你的目標更低的延遲和平滑集成,您可能想要探索工具,像Apache卡夫卡或Apache脈衝星。他們提供實時數據流功能,可以更有效的比定期的批處理。我也建議你讀這篇文章的文檔:增強現實應用程序:最大化與下一代的機會。它有一些好的建議給你。
同樣,如果你大量投資於Deltalake生態係統,您可能想要考慮使用三角洲湖的酸能力直接暴露低延遲的api。這將消除需要中間緩存和簡化你的架構。
就我的經驗而言,我以前在類似的設置。集成不同的數據來源,尤其是在處理實時的需求,可以是一個難題。但這是非常有益的一旦你得到它。
請記住,每個解決方案都有其利弊。根據數據的規模和速度需要,選擇最適合您的項目的目標相吻合的方法。