取消
顯示的結果
而不是尋找
你的意思是:

需要模式加載一百萬小XML文件

CDICSteph
新的因素

你好,尋找合適的解決方案模式對於這個場景:

我們有成千上萬的相對較小的XML文件(目前坐在ADLS),我們必須加載到三角洲湖。每個XML文件讀取、解析和旋轉之前寫入三角洲表。XML模式可以是不同的,隨著時間的漂移。沒有文件之間的依賴關係,以及所有可以附加批發到表(即。,沒有合並)。

我有一個實現,但它是非常緩慢的。如果這是一個場景的小數量的非常大的xml文件,然後為磚我可以看到一個簡單的方法來處理並行工作分區/工人,但在這種情況下,文件比較小,所以分區不是一個東西。我試著並行ThreadPoolExecutor自由——它使不同但不夠材料。也試過pyspark並行化()將一個udf應用到每個文件分布在一個抽樣,但事情變得醜陋。我可能不會考慮這個方麵的正確的體係結構模式,需要應用到我的用例。

2回答2

jose_gonzalez
主持人
主持人

您可以使用自動加載程序。請檢查這個樣本知識庫包含上一步一步怎麼做。https://kb.m.eheci.com/streaming/stream-xml-auto-loader

Vidula_Khanna
主持人
主持人

嗨@Steph Swierenga

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map