我新的火花,磚,我想寫一個管道中心數據從postgres數據庫存儲在s3和攝取。文件名是基於datatime(即數值提升獨特的id20220630 - 215325970. csv)。現在自動裝卸機似乎獲取所有文件在源以隨機的順序。這意味著更新數據庫中的行可能不會發生在正確的順序。
我附上了截圖與一個例子。更新,1,2,3是所有其他後進入順序記錄但他們出現在df顯示順序。
我試著用latestFirst是否我可以得到文件在一個可預測的訂單處理,但選項似乎沒有任何影響。
有辦法負荷和寫文件,文件名使用自動裝卸機?
謝謝,
本
嗨@Ben鮑嘉的字母順序生成的文件,自動加載器可以利用詞法文件排序和優化清單api。更多信息在詞法順序請通過下麵的鏈接:https://docs.m.eheci.com/ingestion/auto-loader/file-detection-modes.html lexical-ordering-of-file……
由於火花是分布式係統,除上述外,其他順序是沒有保證的。
嗨@Ben鮑嘉的字母順序生成的文件,自動加載器可以利用詞法文件排序和優化清單api。更多信息在詞法順序請通過下麵的鏈接:https://docs.m.eheci.com/ingestion/auto-loader/file-detection-modes.html lexical-ordering-of-file……
由於火花是分布式係統,除上述外,其他順序是沒有保證的。