取消
顯示的結果
而不是尋找
你的意思是:

如何讓自動裝卸機加載文件的嗎

159312年
新的貢獻者三世

我新的火花,磚,我想寫一個管道中心數據從postgres數據庫存儲在s3和攝取。文件名是基於datatime(即數值提升獨特的id20220630 - 215325970. csv)。現在自動裝卸機似乎獲取所有文件在源以隨機的順序。這意味著更新數據庫中的行可能不會發生在正確的順序。

我附上了截圖與一個例子。更新,1,2,3是所有其他後進入順序記錄但他們出現在df顯示順序。

我試著用latestFirst是否我可以得到文件在一個可預測的訂單處理,但選項似乎沒有任何影響。

有辦法負荷和寫文件,文件名使用自動裝卸機?

謝謝,

1接受解決方案

接受的解決方案

Noopur_Nigam
重視貢獻二世

嗨@Ben鮑嘉的字母順序生成的文件,自動加載器可以利用詞法文件排序和優化清單api。更多信息在詞法順序請通過下麵的鏈接:https://docs.m.eheci.com/ingestion/auto-loader/file-detection-modes.html lexical-ordering-of-file……

由於火花是分布式係統,除上述外,其他順序是沒有保證的。

在原帖子查看解決方案

1回複1

Noopur_Nigam
重視貢獻二世

嗨@Ben鮑嘉的字母順序生成的文件,自動加載器可以利用詞法文件排序和優化清單api。更多信息在詞法順序請通過下麵的鏈接:https://docs.m.eheci.com/ingestion/auto-loader/file-detection-modes.html lexical-ordering-of-file……

由於火花是分布式係統,除上述外,其他順序是沒有保證的。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map