問題
你有在你的源文件中特殊字符和使用OSS庫Spark-XML。
特殊字符不正確呈現。
例如,“CLU®”呈現“CLU�”。
導致
Spark-XML默認支持utf - 8字符集。你是在XML文件中使用不同的字符集。
解決方案
你必須指定字符集使用XML文件中讀取數據。
使用字符集選項來定義字符集與Spark-XML讀取XML文件時。
例如,如果您的源文件使用iso - 8859 - 1:
% python dfResult = spark.read.format (“xml”) . schema (customSchema) \ .options (rowTag =“實體”)\ .options (charset =“iso - 8859 - 1”) \ .load (' / < path-to-xml > / <示例文件> . xml”)
檢查Spark-XML自述文件有關支持選項的更多信息。