取消
顯示的結果
而不是尋找
你的意思是:

麵臨的問題在火花sql運行轉換代碼框架與5到10%的刺激量數據。需要幫助解決這個要求和建議。

Gopal269673
貢獻者

嗨,所有. .需要你的幫助在我麵臨這個問題。目前我們使用的是數據磚作為一個平台來構建管道和執行我們talend ETL中的轉Beplay体育安卓版本換成火花sql框架我們麵臨問題的曆史數據加載到平台的客戶。

在這個過程中我們看到好的結果維加載但來一些事實在執行我們麵臨很多問題。即使改變可擴展到的節點配置8個工作節點使用i3xlarge 30.5 gb 4核每個節點來執行它。

然而,我看到一些查詢運行超過4小時,當前查詢不是從6小時即使全部節點得到啟動。

表中的行數我看到是4337765617。我附加的查詢以及幾個快照日誌為你快速參考和指導來走出這個問題。感謝你的快速的幫助。

問候,

塔·

1接受解決方案

接受的解決方案

Gopal269673
貢獻者

@All用戶群嗨. .我們試過幾個選項調優查詢通過選擇所需變量的選擇和後續條款。我看到其他查詢是小好。但附加查詢似乎無法從過去6小時8工人節點配置。我看到泄漏高,附加指標。任何人都可以提出優化技術在python中注意本研究作為我唯一的scala相關項目。請幫助優化最佳方法指導和材料更具體Pyspark & Sql。

在原帖子查看解決方案

11日回複11

ajaypanday6781
尊敬的貢獻者二世

@Gopal B,

你有試過通過增加工人和記憶?

@Ajay Pandey是的最初是運行在4工人. .現在擴展到8工作者也從過去的6小時後我不認為任何運動和它告訴過濾/屏幕截圖。不確定調整沒有什麼比插入和查詢中有其他合並幾個變量的函數。需要快速的幫助從優化和調試優化參數的問題

Gopal269673
貢獻者

@All用戶組請看到是否任何人都可以幫助…當我看到後光子加速實現也沒有看到成功。然而相同的查詢在AWS arora花了8個小時完成100%的數據. .但這是無法執行10%的數據. .請建議和幫助

pvignesh92
尊敬的貢獻者

@Gopal嗨。我看到有一個行號和一個選擇在另一個表來填充一個列。你獨自執行這部分,看到花多少時間在你的10%數據?

還我看出你正在使用函數row_number隻生成一個增量id,有沒有可能可以達到相同的生成的{總是默認|}作為身份(((從開始)[增量一步])]]?這些可能避免全表掃描填充row_number。

Baidu
map