取消
顯示的結果
而不是尋找
你的意思是:

Pyspark CSV錯誤計數

TariqueAnwer
新的貢獻者二世
b1123451020 - 502”、“,”{" " m ":{“差異”“:60}}”,“”,“”,“”,2022 - 02 - 12 t15:40:00.783z b1456741975 - 266 ", " {" " m ":{“差異”“:60}}"," "," "," ",2022 - 02 - 04 - t17:03:59.566z b1789753479 - 460,“”,“”,“”,“”,“”, 2022 - 02年- 18 t14:46:57.332z b1456741977 - 123 ", " {" " m ":{“差異”“:60}}"," "," "," ",2022 - 02 - 04 - t17:03:59.566z
df_inputfile = (spark.read.format .option (“com.databricks.spark.csv”) (“inferSchema”、“true”) .option .option(“頭”,“假”)(“quotedstring”、“\”) .option(“逃脫”,“\”).option .option(“多行”、“true”)(“分隔符”,",").load (csv <路徑>))打印(df_inputfile.count()) # 3打印打印(df_inputfile.distinct () .count()) #打印4

我想從CSV文件讀取上麵的數據,最終得到一個錯誤的統計,雖然dataframe包含所有預期的記錄。df_inputfile.count()打印3盡管它應該是4。

看來這一切都因為一個逗號的第四列第三行。有人能解釋為什麼嗎?

5回複5

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,你能檢查一下語法嗎?“\””?

TariqueAnwer
新的貢獻者二世

嗨Debayan,沒有語法錯誤的代碼片段。使用.option(“逃脫”,“”)方麵沒有區別。我仍然會錯誤的數量。

Kaniz
社區經理
社區經理

嗨@Tarique出全新,我們一直沒有收到你最後的回應@Debayan穆克吉和我檢查回幫你看看他的建議。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

TariqueAnwer
新的貢獻者二世

嗨@Kaniz Fatma不幸的是,這個建議沒有幫助,我無法算出奇怪的結果的原因。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map