抓住拒絕與美聯社數據(行)在閱讀…頁2 -磚- 34942

sarvesh · ‎11-16-2021

我與Spark-Scala和接收數據在不同的格式(. csv / .xlxs /。txt等),當我試著讀/寫數據來自不同來源的任何數據庫,記錄了許多拒絕由於各種問題(特殊字符,源和目標數據類型差異表等。在這種情況下,我的整個加載失敗。

我想要的是一種方法來捕捉拒絕行成單獨的文件,繼續加載剩餘的正確記錄在數據庫表中。

基本上不停止程序的流由於一些行,抓住這些問題造成的行。

的例子,

我讀了與98完美行和2 . csv腐敗行,我想讀/寫98行到數據庫中並向用戶發送2腐敗行作為一個文件。

注:我從用戶接收數據所以我不能定義一個模式,我需要一個動態的方式讀取文件並過濾掉腐敗文件中的數據。

werners1 · ‎11-16-2021

或者模式演化對三角洲湖就夠了,結合休伯特的回答

磚