取消
顯示的結果
而不是尋找
你的意思是:

自動裝卸機事件與目錄攝入

AndriusVitkausk
新的貢獻者三世

對於生產工作負載包含大約15 k gzip壓縮的json文件每小時都在/ MM / DD / YYYY HH /身份證/ timestamp.json。廣州目錄

有什麼更好的方法攝取這成三角洲表不僅增量加載,但也再處理嗎?

到目前為止我已經嚐試通過自動裝卸機目錄列表和事件通知的方法和事件通知似乎更快增量加載盡管我不確定不保證100%交付SLA(在這之後),但都是可悲的是緩慢的再處理這些類型的工作負載。

事件通知攝取15 k文件每小時和日常運行積累360 k文件,有些可能錯過了事件通知嗎?我看過一個選擇回填數據在這些通知的一個區間,但這回到目錄清單整個目錄所以不確定已下降將有助於自動裝卸機的文件嗎?

2回答2

Kaniz
社區經理
社區經理

嗨@Andrius Vitkauskas,我們一直沒有收到你最後響應和我檢查回看到如果你有一個決議。如果你有任何解決方案,請與社區分享,因為它可以幫助別人。否則,我們將與更多的細節和試圖幫助回應。

AndriusVitkausk
新的貢獻者三世

@Kaniz Fatma所以我沒有找到一個解決問題的小文件使用自動裝卸機,似乎掙紮真的嚴重反對大目錄,一個集群運行了8 h困在“清單目錄”部分沒有結束,集群似乎完全閑置,沒有什麼有用的日誌中顯示有錯誤嗎?

所以試著采取另一種方法提出了一個高級工程師的公司合並在Azure Datafactory json文件中複製活動,所以15 k json文件變成一個json文件,這似乎是對磚按預期執行。集群是紅色的cpu和內存消耗的處理這些巨大的json文件。這應該解決的問題做定期的詳細目錄大小和im假定元數據將會小得多,因此更快。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map