與“如何取代低頻和替換csv UTF -…頁2 -磚- 12867

虛假的 · ‎01-09-2023

我試過幾個代碼和毫無效果。一個額外的空間或線低頻輸出將下一行。在CRLF所有行結束,但一些行結束在低頻和閱讀時csv,不給予正確的輸出。我的csv雙匕首劃

csv是這樣的

‡‡Id‡‡,‡‡版本‡‡,‡‡問卷‡‡,‡‡日期‡‡

‡‡123456‡‡,‡‡Version2‡‡,‡‡所有問題回答準確

和指導問卷是理解和遵循的‡‡,‡‡2010-12-16 00:01:48.020000000‡‡

我嚐試以下代碼

dff = spark.read。選項(“頭”,“真正的”)\

.option (“inferSchema”,“真正的”)\

.option(“編碼”,“utf - 16”) \

.option(“分隔符”、“‡‡,‡‡”)\

.option \(“多行”,真正的)

. csv (“/ mnt /道路/ data.csv”)

dffs_headers = dff.dtypes

顯示器(dff)

因為我在dffs_headers:

columnLabel =我[0]

newColumnLabel = columnLabel.replace (“‡‡’,”) .replace (“‡‡“,”)

的dff = dff.withColumn (newColumnLabel regexp_replace (columnLabel ' ^ \ \‡‡| \ \‡‡美元","))

如果columnLabel ! = newColumnLabel:

dff = dff.drop (columnLabel)

顯示器(dff)

我可以用正則表達式替換.regexp_replace (? < ! \ r \ n’,”),但如何以及在哪裏?

請幫助@ArunKumar-Databricks @Gustavo Barreto @ANUJ加戈@

Kaniz · ‎01-16-2023

嗨@shamly pt(客戶),我們沒有收到你自從上次反應@sherbin w和@Ratna Chaitanya Raju Bandaru,我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

磚