取消
顯示的結果
而不是尋找
你的意思是:

可憐的自動加載程序性能與S3 CSV文件

dotan
新的貢獻者二世

我設置一個筆記本攝取數據使用自動加載程序從一個包含超過500 k S3 bucket CSV文件到一個蜂巢表。

最近的行(和輸入文件)表中從約150增加到530,現在每一批需要大約一個小時來完成而不是增長前大約1 - 2分鍾。我試著優化表、啟用自動優化設置spark.sql.shuffle。分區2000集群中,使用高性能節點但它仍然需要很長時間來完成每一批。

還有什麼我可以嚐試提高性能?

謝謝你!

4回複4

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你能通過嗎https://docs.m.eheci.com/optimizations/index.html讓我們知道這有幫助。

werners1
尊敬的貢獻者三世

你確定這個問題在三角洲湖合並?

它也可以自動裝卸機本身。

你能檢查這些鏈接嗎?

https://docs.m.eheci.com/ingestion/auto-loader/file-detection-modes.html

https://docs.m.eheci.com/ingestion/auto-loader/production.html

Kaniz
社區經理
社區經理

嗨@Dotan Schachter,我們一直沒有收到你自從上次反應@Werner Stinckens @Debayan穆克吉,我檢查看看我的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

Vidula_Khanna
主持人
主持人

嗨@Dotan Schachter

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map