謝謝你的回放。
這隻是一個csv文件數千或數百萬行。但是沒有任何時間戳或行號告訴哪一行有最新的數據。的情況是,如果主鍵(組合兩列,文件已經超過20列)發生重複的錯誤,我隻需要保持最新的記錄。這裏的原始順序意味著文件時顯示的順序與任何應用程序打開它。最後一行的原始順序被認為是最新的數據。
我找不到我的代碼,但我記得使用火花。讀“file_name”()。text(),然後操縱文件(爆炸等)在正確的順序。當然,這將是慢,整個文件將一個細胞,它有內存限製,因為它將經曆一個工人。所以文件必須小於RAM的工人。
沒有火花函數顯示一行在源(如將一切每個分區塊和工作),所以其他解決方案不會100%的保證。
如果文件很大或替代,您需要添加ID文件內。
這個文件是下降了最終用戶到azure blob存儲在每周和大小可能有天壤之別。我將處理它通過azure磚筆記本叫azure數據工廠的管道,我可以設置亞行的集群配置。如果我設置工作節點,它能保證我添加的指數monotonically_increasing_id()函數與文件的原始順序不考慮性能?謝謝!