如何處理損壞的鑲花的文件不同的模式嗎

學習如何閱讀使用磚拚花文件與一個特定的模式。

去年發表在:2022年5月31日

問題

假設你有一個大的本質上獨立檢查機關文件,與各種不同的模式。你要讀的隻有那些文件匹配一個特定的模式和跳過不匹配的文件。

一個解決方案可以按順序讀取文件,確定模式,和工會DataFrames在一起。然而,這種方法是不切實際的,當有成千上萬的文件。

設置Apache火花的屬性spark.sql.files.ignoreCorruptFiles來真正的然後讀取文件所需的模式。文件不匹配指定的模式將被忽略。合成數據集僅包含與指定的模式匹配的文件數據。

設置火花屬性使用spark.conf.set:

spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)

或者,你可以設置這個屬性火花配置(AWS|Azure|GCP)。