XML文件

本文描述了如何讀和寫一個XML文件作為一個Apache火花數據源。

需求

創建spark-xml圖書館作為一個Maven庫。對於Maven坐標,指定:
- 磚運行時7。x,上圖:com.databricks: spark-xml_2.12: <版本>
看到spark-xml釋放< / >的最新版本<版本>。

安裝庫在一個集群中。

例子

檢索圖書XML文件:

               wget https://github.com/databricks/spark-xml/raw/master/src/test/resources/books.xml美元
              

上傳文件 DBFS。

讀取和寫入XML數據

               / * * /推斷模式創建表書使用xml選項(路徑“dbfs: / books.xml”,rowTag“書”)/ * * /指定列的名稱和類型創建表書(作者字符串,描述字符串,類型字符串,_id字符串,價格雙,publish_date字符串,標題字符串)使用xml選項(路徑“dbfs: / books.xml”,rowTag“書”)
              

               / /推斷模式進口com。磚。火花。xml。_/ /添加DataFrame.read.xml()方法瓦爾df=火花。讀。選項(“rowTag”,“書”)。xml(“dbfs: / books.xml”)瓦爾selectedData=df。選擇(“作者”,“_id”)selectedData。寫。選項(“rootTag”,“書”)。選項(“rowTag”,“書”)。xml(“dbfs: / newbooks.xml”)/ /指定模式進口org。apache。火花。sql。類型。{StructType,StructField,StringType,倍增式}瓦爾customSchema=StructType(數組(StructField(“_id”,StringType,可以為空=真正的),StructField(“作者”,StringType,可以為空=真正的),StructField(“描述”,StringType,可以為空=真正的),StructField(“類型”,StringType,可以為空=真正的),StructField(“價格”,倍增式,可以為空=真正的),StructField(“publish_date”,StringType,可以為空=真正的),StructField(“標題”,StringType,可以為空=真正的)))瓦爾df=火花。讀。選項(“rowTag”,“書”)。模式(customSchema)。xml(“books.xml”)瓦爾selectedData=df。選擇(“作者”,“_id”)selectedData。寫。選項(“rootTag”,“書”)。選項(“rowTag”,“書”)。xml(“dbfs: / newbooks.xml”)
              

               #推斷模式圖書館(SparkR)sparkR.session(“地方[4]”,sparkPackages=c(“com.databricks: spark-xml_2.12: <版本>”))df< -read.df(“dbfs: / books.xml”,源=“xml”,rowTag=“書”)#默認“rootTag”和“rowTag”write.df(df,“dbfs: / newbooks.xml”,“xml”)#指定模式customSchema< -structType(structField(“_id”,“字符串”),structField(“作者”,“字符串”),structField(“描述”,“字符串”),structField(“類型”,“字符串”),structField(“價格”,“替身”),structField(“publish_date”,“字符串”),structField(“標題”,“字符串”))df< -read.df(“dbfs: / books.xml”,源=“xml”,模式=customSchema,rowTag=“書”)#在這種情況下,“rootTag”設置為“行”和“rowTag”設置為“行”。write.df(df,“dbfs: / newbooks.xml”,“xml”,“覆蓋”)
              

選項

讀
- 路徑:XML文件的位置。接受標準Hadoop globbing表達式。
- rowTag:行標簽治療作為一個行。例如,在這個XML<書> <書> <書>…< /書>,該值書。默認是行。
- samplingRatio推斷模式:抽樣率(0.0 ~ 1)。默認值為1。可能的類型是StructType,ArrayType,StringType,LongType,倍增式,BooleanType,TimestampType和NullType,除非你提供一種模式。
- excludeAttribute:是否排除屬性元素。默認是假的。
- nullValue:治療價值零價值。默認是”“。
- 模式:處理腐敗的方式記錄。默認是寬容的。
  - 寬容的:
    - 當遇到一個損壞的記錄,設置所有字段零畸形的字符串,並將配置一個新的領域columnNameOfCorruptRecord。
    - 當遇到一個字段錯誤的數據類型,設置的字段零。
  - DROPMALFORMED:忽略了損壞的記錄。
  - FAILFAST當它檢測到損壞的記錄:拋出一個異常。
- inferSchema:如果真正的,試圖為每個生成的DataFrame推斷出一個適當的類型列,像一個布爾值、數字或日期類型。如果假,所有生成的字符串類型的列。默認是真正的。
- columnNameOfCorruptRecord:新領域,畸形的名字字符串存儲。默認是_corrupt_record。
- attributePrefix:前綴,以便區分屬性和元素。這是字段名稱的前綴。默認是_。
- valueTag:標簽用於一個元素中的屬性值時,沒有子元素。默認是_VALUE。
- 字符集:默認為utf - 8但可以設置為其他有效字符集名稱。
- ignoreSurroundingSpaces:周圍空白值是否應該被忽略。默認是假的。
- rowValidationXSDPath:道路一個XSD文件,用於驗證XML為每一行。行,無法驗證被當做解析的錯誤。XSD並不否則影響提供的模式或推斷。如果相同的本地路徑也沒有可見的執行人集群,然後XSD和任何其他這取決於應該添加到火花執行人SparkContext.addFile< / >。在這種情況下,使用當地的XSD/ foo / bar.xsd,叫addFile (“/ foo / bar.xsd”)並通過“bar.xsd”作為rowValidationXSDPath。

寫

路徑:位置寫文件。
rowTag:行標簽治療作為一個行。例如,在這個XML<書> <書> <書>…< /書>,該值書。默認是行。
rootTag治療作為根:根標記。例如,在這個XML<書> <書> <書>…< /書>,該值書。默認是行。
nullValue:寫的價值零價值。默認值是字符串“零”。當“零”,它不為字段寫屬性和元素。
attributePrefix:前綴的屬性來區分屬性和元素。這是字段名稱的前綴。默認是_。
valueTag:標簽用於一個元素中的屬性值時,沒有子元素。默認是_VALUE。
壓縮:壓縮編解碼器使用在保存文件。應該是類的完全限定名稱實現嗎org.apache.hadoop.io.compress.CompressionCodec或一個不區分大小寫的短名稱(bzip2,gzip,lz4,時髦的)。默認是沒有壓縮。

支持縮短名稱使用;您可以使用xml而不是com.databricks.spark.xml。

XSD的支持

你可以驗證個別行針對XSD模式使用rowValidationXSDPath。

您使用該實用程序com.databricks.spark.xml.util.XSDToSchema提取一個火花DataFrame模式一些XSD文件。它隻支持簡單的、複雜的和序列類型,隻有基本的XSD功能,是實驗。

             進口com。磚。火花。xml。跑龍套。XSDToSchema進口java。nio。文件。路徑瓦爾模式=XSDToSchema。讀(路徑。得到(“/道路/ / your.xsd”))瓦爾df=火花。讀。模式(模式)....xml(…)
            

嵌套的XML解析

盡管主要用於將XML文件轉換為DataFrame,您還可以使用from_xml方法來解析XML的string值列在現有DataFrame並添加一個新列與解析結果的結構:

             進口com。磚。火花。xml。功能。from_xml進口com。磚。火花。xml。schema_of_xml進口火花。值得一提的。_瓦爾df=…/ / / DataFrame XML列“有效載荷”瓦爾payloadSchema=schema_of_xml(df。選擇(“有效載荷”)。作為(字符串])瓦爾解析=df。withColumn(“解析”,from_xml(美元“有效載荷”,payloadSchema))
            

請注意

模式:
- 如果設置為寬容的默認的,而不是默認解析模式DROPMALFORMED。如果包含一個列的模式from_xml相匹配的columnNameOfCorruptRecord,然後寬容的模式輸出列在結果結構畸形的記錄。
- 如果設置為DROPMALFORMEDXML值,不正確地解析導致零值的列。沒有行了。
from_xml將字符串數組包含XML解析結構體的數組。使用schema_of_xml_array代替。
from_xml_string是另一種用於udf,直接作用於一個字符串,而不是列。

轉換規則

由於DataFrames和XML之間結構上的差異,還有一些從XML數據轉換規則從DataFrame DataFrame和XML數據。你可以禁用處理屬性的選擇excludeAttribute。

將XML轉換成DataFrame

屬性:屬性轉換為字段中指定的前綴attributePrefix選擇。如果attributePrefix是_,文檔

                <一個myOneAttrib =“AAAA”>< 2 >兩個< /兩個><三>三個三> < /一> < /
               

生產模式:

                根|——_myOneAttrib:字符串(可以為空=真正的)|——兩個:字符串(可以為空=真正的)|——三個:字符串(可以為空=真正的)
               

如果一個元素有屬性,但沒有子元素,屬性值放在一個單獨的字段中指定valueTag選擇。如果valueTag是_VALUE,文檔

                <一><兩myTwoAttrib =“BBBBB”>兩個< /兩個><三>三個三> < /一> < /
               

生產模式:

                根|——兩個:結構體(可以為空=真正的)||——_VALUE:字符串(可以為空=真正的)||——_myTwoAttrib:字符串(可以為空=真正的)|——三個:字符串(可以為空=真正的)
               

DataFrame轉換為XML

編寫一個XML文件從DataFrame字段ArrayType與它的元素ArrayType會有額外的嵌套元素的領域。這不會發生在XML數據閱讀和寫作,但寫DataFrame閱讀從其他來源。因此,往返在讀寫XML文件具有相同的結構,但寫DataFrame閱讀從其他來源可能有不同的結構。

一個DataFrame模式:

              |——一個:數組(可以為空=真正的)||——元素:數組(containsNull=真正的)|||——元素:字符串(containsNull=真正的)
             

和數據:

              + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +|一個|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +|(WrappedArray(aa),WrappedArray(bb)]|+ - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +
             

生成的XML文件:

              <一><項目>aa< /商品>< / ><一><項目>bb< /商品>< / >