問題
假設你有一個大的本質上獨立檢查機關文件,與各種不同的模式。你要讀的隻有那些文件匹配一個特定的模式和跳過不匹配的文件。
一個解決方案可以按順序讀取文件,確定模式,和工會DataFrames在一起。然而,這種方法是不切實際的,當有成千上萬的文件。
解決方案
設置Apache火花的屬性spark.sql.files.ignoreCorruptFiles來真正的然後讀取文件所需的模式。文件不匹配指定的模式將被忽略。合成數據集僅包含與指定的模式匹配的文件數據。
設置火花屬性使用spark.conf.set:
spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)