取消
顯示的結果
而不是尋找
你的意思是:

使用三角洲住表結構流小批量嗎?

CVogel
新的因素

嗨磚社區,

我有一個blob存儲文件夾,將收到文件下降,3文件在每個不同的下降:例文件A1, B1, C1是下降,A2、B2, C2是下一個。DLT管道我有設置有很多連接和聚合,使用DLT目前。讀(而不是read_stream)。連接隻需要考慮文件的數據在同一個下降(即A1數據永遠不會需要與B2合並數據)。

我最初讀取新文件到一個青銅層表流讀,但是我不確定什麼是最好的方法去。據我所知它dlt.read()將讀取所有數據在3銅表(它將包含A1……一個,B1……BN等等)這似乎是低效的規模和隻會重讀已經處理過的數據。所以我認為流讀取的方法使用,但我不得不選擇一個大水印間隔(每天說)因為我們可以得到多個數據集的一次下跌,他們是相當大的。

流讀取水印的方法使用這些增量文件滴?還是有一些其他的設計應該考慮我?

謝謝! !

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map