以下命令失敗
df1 = sqlContext.read.format (“xml”) .load (loadPath)
df2 = sqlContext.read.format (com.databricks.spark.xml) .load (loadPath)
用以下錯誤信息:
. lang。ClassNotFoundException:沒有找到數據源:xml。請找到包http://spark.apache.org/third-party-projects.html
我讀了幾篇文章在這個論壇上但沒有解決。我認為磚已經安裝的XML庫。這是在DBC集群”4.2(包括Apache火花2.3.1,Scala 2.11)”
你好,
如果你得到這個錯誤是由於com.sun.xml。結合圖書館現在已經過時了。
你需要下載org.jvnet.jaxb2。maven包進入圖書館使用maven中央和附加到一個集群。
然後你可以使用xml-spark。
為進一步引用您可以檢查這個頁麵:https://datamajor.net/how-to-convert-dataframes-into-xml-files-on-spark/
請告訴我如果你有更多的問題與此相關的庫。