嗨,所有. .需要你的幫助在我麵臨這個問題。目前我們使用的是數據磚作為一個平台來構建管道和執行我們talend ETL中的轉Beplay体育安卓版本換成火花sql框架我們麵臨問題的曆史數據加載到平台的客戶。
在這個過程中我們看到好的結果維加載但來一些事實在執行我們麵臨很多問題。即使改變可擴展到的節點配置8個工作節點使用i3xlarge 30.5 gb 4核每個節點來執行它。
然而,我看到一些查詢運行超過4小時,當前查詢不是從6小時即使全部節點得到啟動。
表中的行數我看到是4337765617。我附加的查詢以及幾個快照日誌為你快速參考和指導來走出這個問題。感謝你的快速的幫助。
問候,
塔·
@Vigneshraja Palaniraj感謝評審我的查詢和提供你的視圖。個人查詢將運行,看看需要多少時間。與此同時選擇row_number創建身份。我們可以在這裏無法創建身份。其他建議請在這裏幫助。你認為其他的優化將幫助嗎?我也曾起訴過光子而不是真正有用的和執行仍然終止它。
B嗨@Gopal光子不能在所有情況下都有效。這將是良好的效果,當你有大量的連接和聚合發生在你的邏輯。但在你的情況下,這似乎是一個簡單的讀和寫。
看看你也可以減少工人的數量,有一個或兩個大型集群等更多的內核和內存4 xl,這樣可以避免打亂。但是請看到此時,你花時間從你的工作日誌,我看到隻有一個任務正在運行。
@Vigneshraja Palaniraj是的,我同意你的光子不是有用的。按照你的建議將嚐試看看可以通過啟用記憶像這部分的集群節點。現在我檢查查詢調優和觀察任何數據元素可以減少在選擇基於業務的批準。然而,它是漫長的過程,要避免它。在工作日誌中隻有一個任務正在運行,這就是為什麼我感到驚訝。甚至沒有節點沒有幫助這部分代碼
是的。因為行號與訂單功能必須把所有的記錄到一個工人,這樣就可以按順序運行id分配給您的數據。所以隻有這個操作完成後,編寫並行可能發生取決於你的分區。你也可以考慮訂購你輸入“分期付款”而寫作本身列的表,你訂購,看看它是否可以降低你的計時。
@Vigneshraja Vignesh Palaniraj確定。謝謝你的檢查和輸入。讓我試試這個。目前使用集群用戶共享,在某個時候需要計劃工作不打算這單節點內存對齊。任何suggestable內存實例將套件基於你的經驗嗎?
來分期付款表32 gb左右,我想訂購需要多長時間。我將把它添加我的任務列表來執行並認為選項。