需要模式加載一百萬-磚- 5047小型XML文件

CDICSteph · ‎04-28-2023

你好,尋找合適的解決方案模式對於這個場景:

我們有成千上萬的相對較小的XML文件(目前坐在ADLS),我們必須加載到三角洲湖。每個XML文件讀取、解析和旋轉之前寫入三角洲表。XML模式可以是不同的,隨著時間的漂移。沒有文件之間的依賴關係,以及所有可以附加批發到表(即。,沒有合並)。

我有一個實現,但它是非常緩慢的。如果這是一個場景的小數量的非常大的xml文件,然後為磚我可以看到一個簡單的方法來處理並行工作分區/工人,但在這種情況下,文件比較小,所以分區不是一個東西。我試著並行ThreadPoolExecutor自由——它使不同但不夠材料。也試過pyspark並行化()將一個udf應用到每個文件分布在一個抽樣,但事情變得醜陋。我可能不會考慮這個方麵的正確的體係結構模式,需要應用到我的用例。

jose_gonzalez · ‎04-28-2023

您可以使用自動加載程序。請檢查這個樣本知識庫包含上一步一步怎麼做。https://kb.m.eheci.com/streaming/stream-xml-auto-loader

Vidula_Khanna · ‎04-29-2023

嗨@Steph Swierenga

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

磚

需要模式加載一百萬小XML文件