對於生產工作負載包含大約15 k gzip壓縮的json文件每小時都在/ MM / DD / YYYY HH /身份證/ timestamp.json。廣州目錄
有什麼更好的方法攝取這成三角洲表不僅增量加載,但也再處理嗎?
到目前為止我已經嚐試通過自動裝卸機目錄列表和事件通知的方法和事件通知似乎更快增量加載盡管我不確定不保證100%交付SLA(在這之後),但都是可悲的是緩慢的再處理這些類型的工作負載。
事件通知攝取15 k文件每小時和日常運行積累360 k文件,有些可能錯過了事件通知嗎?我看過一個選擇回填數據在這些通知的一個區間,但這回到目錄清單整個目錄所以不確定已下降將有助於自動裝卸機的文件嗎?
@Kaniz Fatma所以我沒有找到一個解決問題的小文件使用自動裝卸機,似乎掙紮真的嚴重反對大目錄,一個集群運行了8 h困在“清單目錄”部分沒有結束,集群似乎完全閑置,沒有什麼有用的日誌中顯示有錯誤嗎?
所以試著采取另一種方法提出了一個高級工程師的公司合並在Azure Datafactory json文件中複製活動,所以15 k json文件變成一個json文件,這似乎是對磚按預期執行。集群是紅色的cpu和內存消耗的處理這些巨大的json文件。這應該解決的問題做定期的詳細目錄大小和im假定元數據將會小得多,因此更快。