Pyspark CSV錯誤計數-磚- 30686

TariqueAnwer · ‎09-27-2022

b1123451020 - 502”、“,”{" " m ":{“差異”“:60}}”,“”,“”,“”,2022 - 02 - 12 t15:40:00.783z b1456741975 - 266 ", " {" " m ":{“差異”“:60}}"," "," "," ",2022 - 02 - 04 - t17:03:59.566z b1789753479 - 460,“”,“”,“”,“”,“”, 2022 - 02年- 18 t14:46:57.332z b1456741977 - 123 ", " {" " m ":{“差異”“:60}}"," "," "," ",2022 - 02 - 04 - t17:03:59.566z

df_inputfile = (spark.read.format .option (“com.databricks.spark.csv”) (“inferSchema”、“true”) .option .option(“頭”,“假”)(“quotedstring”、“\”) .option(“逃脫”,“\”).option .option(“多行”、“true”)(“分隔符”,",").load (csv <路徑>))打印(df_inputfile.count()) # 3打印打印(df_inputfile.distinct () .count()) #打印4

我想從CSV文件讀取上麵的數據,最終得到一個錯誤的統計,雖然dataframe包含所有預期的記錄。df_inputfile.count()打印3盡管它應該是4。

看來這一切都因為一個逗號的第四列第三行。有人能解釋為什麼嗎?

Debayan · ‎09-29-2022

嗨,你能檢查一下語法嗎?“\””?

TariqueAnwer · ‎10-04-2022

嗨Debayan,沒有語法錯誤的代碼片段。使用.option(“逃脫”,“”)方麵沒有區別。我仍然會錯誤的數量。

Kaniz · ‎10-03-2022

嗨@Tarique出全新,我們一直沒有收到你最後的回應@Debayan穆克吉和我檢查回幫你看看他的建議。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

TariqueAnwer · ‎10-04-2022

嗨@Kaniz Fatma不幸的是,這個建議沒有幫助,我無法算出奇怪的結果的原因。