解決:Re:我需要編輯檢查機關文件,改變fi……-磚- 27268

prakharjain · ‎03-02-2020

你好,

我麵臨的困難在stackoverflow主題之後,所

https://stackoverflow.com/questions/45804534/pyspark-org-apache-spark-sql-analysisexception-attribut..。

https://stackoverflow.com/questions/38191157/spark-dataframe-validating-column-names-for-parquet-wri..。

我已經試了所有提到的解決方案,但我每次都得到同樣的錯誤。其像火花不能閱讀領域空間。

所以,我試圖找到其他解決方案來重命名字段,並保存檢查機關文件。之後,我將繼續我的轉換與火花。

任何人都可以幫幫我. .大量的愛和感謝

DimitriBlyumin · ‎05-21-2020

以外的一種選擇是使用火花閱讀有問題的文件,例如熊貓,如果你的文件是足夠小,適合在司機節點(熊貓隻能運行在司機)。如果你有多個文件,你可以通過他們並修複一個接一個循環。

熊貓作為pd導入df = pd.read_parquet (' / / dbfs /道路/ /你/ file.parquet”) df = df。重命名(列={“列”:“col_one”、“列兩個”:“col_two”}) dfSpark = spark.createDataFrame (df) #轉換引發dataframe df.to_parquet (' / / dbfs /道路/ /你/固定/ file.parquet”) #和/或保存固定拚花

在原帖子查看解決方案

DimitriBlyumin · ‎05-13-2020

看起來是一個已知問題/限製由於拚花內部,也不會是固定的。顯然沒有解決火花。

https://issues.apache.org/jira/browse/spark - 27442

DimitriBlyumin · ‎05-21-2020

以外的一種選擇是使用火花閱讀有問題的文件,例如熊貓,如果你的文件是足夠小,適合在司機節點(熊貓隻能運行在司機)。如果你有多個文件,你可以通過他們並修複一個接一個循環。

熊貓作為pd導入df = pd.read_parquet (' / / dbfs /道路/ /你/ file.parquet”) df = df。重命名(列={“列”:“col_one”、“列兩個”:“col_two”}) dfSpark = spark.createDataFrame (df) #轉換引發dataframe df.to_parquet (' / / dbfs /道路/ /你/固定/ file.parquet”) #和/或保存固定拚花

磚

我需要編輯鋪文件和更改字段名,取代空間強調