日期字段同時發生變化的情況下,讀取數據從源dataframe xls文件。xl源文件中的所有列都是字符串,但我不知道為什麼日期列單獨表現不同
在源文件日期是1/24/2022。
在dataframe 1/24/22
代碼使用:
從pyspark.sql。功能導入*
進口pyspark.sql。作為科幻小說
進口pyspark.sql.types
熊貓作為pd導入
進口操作係統
進口一滴
文件名=水珠。一團(PathSource +“/ * xls”)
dfs = []
df的dfs:
xl_file = pd.ExcelFile(文件名)
df = xl_file.parse (“Sheet1”)
dfs。concat (df ignore_index = True)
顯示器(df)
提前感謝任何幫助或指導。
嗨,團隊,@Merca Ovnerud
我也麵臨同樣的問題,下麵是我用的代碼片段
df = spark.read.format (com.crealytics.spark.excel) .option .load(“標題”、“true”) (“/ mnt / dBeplay体育安卓版本ataplatform / Tenant_PK / Results.xlsx”)
我有幾個日期列,都是顯示dd / mm / yy格式,但它必須是dd / mm / yyyy格式
源文件有:26-03-1950
Dataframe有:26-03-50
我已經使用parse_dates = False但它不是工作,任何一個能幫助