取消
顯示的結果
而不是尋找
你的意思是:

與“如何取代低頻和替換csv utf - 16編碼嗎?

虛假的
新的貢獻者三世

我試過幾個代碼和毫無效果。一個額外的空間或線低頻輸出將下一行。在CRLF所有行結束,但一些行結束在低頻和閱讀時csv,不給予正確的輸出。我的csv雙匕首劃

csv是這樣的

‡‡Id‡‡,‡‡版本‡‡,‡‡問卷‡‡,‡‡日期‡‡

‡‡123456‡‡,‡‡Version2‡‡,‡‡所有問題回答準確

和指導問卷是理解和遵循的‡‡,‡‡2010-12-16 00:01:48.020000000‡‡

我嚐試以下代碼

dff = spark.read。選項(“頭”,“真正的”)\

.option (“inferSchema”,“真正的”)\

.option(“編碼”,“utf - 16”) \

.option(“分隔符”、“‡‡,‡‡”)\

.option \(“多行”,真正的)

. csv (“/ mnt /道路/ data.csv”)

dffs_headers = dff.dtypes

顯示器(dff)

因為我在dffs_headers:

columnLabel =我[0]

newColumnLabel = columnLabel.replace (“‡‡’,”) .replace (“‡‡“,”)

的dff = dff.withColumn (newColumnLabel regexp_replace (columnLabel ' ^ \ \‡‡| \ \‡‡美元","))

如果columnLabel ! = newColumnLabel:

dff = dff.drop (columnLabel)

顯示器(dff)

我可以用正則表達式替換.regexp_replace (? < ! \ r \ n’,”),但如何以及在哪裏?

請幫助@ArunKumar-Databricks @Gustavo Barreto @ANUJ加戈@

5回複5

Kaniz
社區經理
社區經理

嗨@shamly pt(客戶),我們沒有收到你自從上次反應@sherbin w和@Ratna Chaitanya Raju Bandaru,我檢查看看他們的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map