問題
閱讀幾乎相當於鋪在一個目錄表列X型浮子和一些型雙失敗。
嚐試解決
筆記
這是一個眾所周知的問題,但我需要一個工作。
示例代碼
(spark.read。選項(“mergeSchema”,假).option (“spark.databricks.io.cache。啟用”,假).parquet (f“s3: / /桶/數據/ *”).write.mode .saveAsTable(“追加”)(“my_table”))
經過許多許多小時的試圖解決這個問題,我想出了一個黑客_solves_問題,但它不是最優的。我基本上讀文件的目錄清單,然後通過工會和合並它們做一個拯救出來。
my_schema = StructType ([StructField(“命令”,StringType ()), StructField(“通過”,TimestampType ()), StructField(“模式”,LongType ()), StructField(“提供”,倍增式()),])df =火花。createDataFrame(數據=[],模式= my_schema) #……在table_files table_file: df = df。聯盟(spark.read。選項(“mergeSchema”,假).option (“spark.databricks.io.cache。啟用”,假).parquet (f“s3: / /桶/數據/ {table_file}”) #轉換.select(“命令”、“通過”、“模式”,“提供”))
經過許多許多小時的試圖解決這個問題,我想出了一個黑客_solves_問題,但它不是最優的。我基本上讀文件的目錄清單,然後通過工會和合並它們做一個拯救出來。
my_schema = StructType ([StructField(“命令”,StringType ()), StructField(“通過”,TimestampType ()), StructField(“模式”,LongType ()), StructField(“提供”,倍增式()),])df =火花。createDataFrame(數據=[],模式= my_schema) #……在table_files table_file: df = df。聯盟(spark.read。選項(“mergeSchema”,假).option (“spark.databricks.io.cache。啟用”,假).parquet (f“s3: / /桶/數據/ {table_file}”) #轉換.select(“命令”、“通過”、“模式”,“提供”))