取消
顯示的結果
而不是尋找
你的意思是:

我需要編輯鋪文件和更改字段名,取代空間強調

prakharjain
新的因素

你好,

我麵臨的困難在stackoverflow主題之後,所

https://stackoverflow.com/questions/45804534/pyspark-org-apache-spark-sql-analysisexception-attribut..。

https://stackoverflow.com/questions/38191157/spark-dataframe-validating-column-names-for-parquet-wri..。

我已經試了所有提到的解決方案,但我每次都得到同樣的錯誤。其像火花不能閱讀領域空間。

所以,我試圖找到其他解決方案來重命名字段,並保存檢查機關文件。之後,我將繼續我的轉換與火花。

任何人都可以幫幫我. .大量的愛和感謝:slightly_smiling_face:

1接受解決方案

接受的解決方案

DimitriBlyumin
新的貢獻者三世

以外的一種選擇是使用火花閱讀有問題的文件,例如熊貓,如果你的文件是足夠小,適合在司機節點(熊貓隻能運行在司機)。如果你有多個文件,你可以通過他們並修複一個接一個循環。

熊貓作為pd導入df = pd.read_parquet (' / / dbfs /道路/ /你/ file.parquet”) df = df。重命名(列={“列”:“col_one”、“列兩個”:“col_two”}) dfSpark = spark.createDataFrame (df) #轉換引發dataframe df.to_parquet (' / / dbfs /道路/ /你/固定/ file.parquet”) #和/或保存固定拚花

在原帖子查看解決方案

2回答2

DimitriBlyumin
新的貢獻者三世

看起來是一個已知問題/限製由於拚花內部,也不會是固定的。顯然沒有解決火花。

https://issues.apache.org/jira/browse/spark - 27442

DimitriBlyumin
新的貢獻者三世

以外的一種選擇是使用火花閱讀有問題的文件,例如熊貓,如果你的文件是足夠小,適合在司機節點(熊貓隻能運行在司機)。如果你有多個文件,你可以通過他們並修複一個接一個循環。

熊貓作為pd導入df = pd.read_parquet (' / / dbfs /道路/ /你/ file.parquet”) df = df。重命名(列={“列”:“col_one”、“列兩個”:“col_two”}) dfSpark = spark.createDataFrame (df) #轉換引發dataframe df.to_parquet (' / / dbfs /道路/ /你/固定/ file.parquet”) #和/或保存固定拚花

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map