取消
顯示的結果
而不是尋找
你的意思是:

Unittest PySpark - Maven com.databricks.spark如何讀取XML。xml ?

Michael_Galli
因素二世

編寫單元測試時使用unittest / pytest PySpark,閱讀模型數據源內置數據類型如csv, json (spark.read.format (json))就可以了。

但當讀取XML´s和spark.read.format (“com.databricks.spark.xml”)在單元測試,這並不工作的:

. lang。ClassNotFoundException:沒有找到數據來源:com.databricks.spark.xml。

注意:單元測試不磚集群上運行,但是在當地一個hadoop winutils目錄。

有什麼方法可以實現這個,或者我應該使用一些python內置xml庫嗎?

1接受解決方案

接受的解決方案

這是正確的. .以下為我工作:

SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)

在原帖子查看解決方案

4回複4

werners1
尊敬的貢獻者三世

我猜你在本地運行火花嗎?因為com.databricks.spark。xml是一種庫火花。

這不是默認安裝所以你必須將它添加到您的本地安裝火花。

這是正確的. .以下為我工作:

SparkSession.builder。(. .) . config (“spark.jars。包”、“com.databricks: spark-xml_2.12:0.12.0”)

Hubert_Dudek1
尊敬的貢獻者三世

請安裝spark-xml從Maven。從Maven是你需要安裝集群中使用集群設置(或者使用API或CLI)

https://mvnrepository.com/artifact/com.databricks/spark-xml

在上麵看到的,我已經找到了解決方案。沒有集群,但是隻有當地引發會話。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map