取消
顯示的結果
而不是尋找
你的意思是:

惟一的ID後不再獨特的表值合並每個x乘以

zeta_load
新的貢獻者二世

我有兩個表與獨特的id:

ID val ID val

1 10 1

2 11 2 10

3 13 13

然後我合並這兩個表,這樣就導致一個表隻有惟一的id。邏輯或多或少是無關緊要的問題,每一個90/100乘以操作失敗(沒有錯誤)和我的表有重複的id。我堅持在希望它會改變,但是他們卻沒有。

有人可以請給我一些原因也會導致這樣的問題和一些解決方案addvice嗎?我困在這裏,因為問題很少發生。我用pyspark和標準的多節點集群,

1接受解決方案

接受的解決方案

匿名
不適用

@Lukas Goldschmied:

有一些原因你可能會經曆這個問題:

  1. 數據傾斜:數據傾斜是一個常見的問題在分布式計算集群中的一個或多個節點比其他人有更多的數據流程。這可能導致更長的處理時間,超時等問題。在你的情況下,如果有某些明顯比其他人更行id,它可能導致合並失敗。
  2. 內存問題:在處理大型數據集時,內存可能出現問題,導致合並操作失敗。如果數據不正確的分區或緩存,它可以導致節點耗盡內存,導致不完整的或失敗的操作。
  3. 集群配置:集群的配置也可以合並操作的成功的一個因素。如果你的集群配置不當,或資源不足,它可以導致操作失敗。

這裏有一些可能的解決方案:

  1. 增加分區:增加分區的數量可以幫助跨集群更平均地分布工作負載,減少數據傾斜的可能性。你可以嚐試增加分區的數量,看看,就可以解決這個問題。
  2. 增加內存分配給您的集群:增加的內存分配給您的集群可以幫助減少內存問題在合並操作。你可以嚐試增加內存分配給您的集群,看看,就可以解決這個問題。
  3. 增加超時周期:增加超時期間可以允許合並操作成功完成。你可以嚐試增加超時周期,看看,就可以解決這個問題。
  4. 使用不同的合並算法:根據數據的具體性質和合並操作,使用不同的合並算法可以解決這個問題。你可以試著使用不同的合並算法,看看是否可以解決這個問題。
  5. 檢查集群日誌:你可以檢查您的集群的日誌,看是否有任何錯誤或警告,可能與失敗的合並操作。這可以幫助確定問題的根本原因和指導你的故障排除工作。

在原帖子查看解決方案

1回複1

匿名
不適用

@Lukas Goldschmied:

有一些原因你可能會經曆這個問題:

  1. 數據傾斜:數據傾斜是一個常見的問題在分布式計算集群中的一個或多個節點比其他人有更多的數據流程。這可能導致更長的處理時間,超時等問題。在你的情況下,如果有某些明顯比其他人更行id,它可能導致合並失敗。
  2. 內存問題:在處理大型數據集時,內存可能出現問題,導致合並操作失敗。如果數據不正確的分區或緩存,它可以導致節點耗盡內存,導致不完整的或失敗的操作。
  3. 集群配置:集群的配置也可以合並操作的成功的一個因素。如果你的集群配置不當,或資源不足,它可以導致操作失敗。

這裏有一些可能的解決方案:

  1. 增加分區:增加分區的數量可以幫助跨集群更平均地分布工作負載,減少數據傾斜的可能性。你可以嚐試增加分區的數量,看看,就可以解決這個問題。
  2. 增加內存分配給您的集群:增加的內存分配給您的集群可以幫助減少內存問題在合並操作。你可以嚐試增加內存分配給您的集群,看看,就可以解決這個問題。
  3. 增加超時周期:增加超時期間可以允許合並操作成功完成。你可以嚐試增加超時周期,看看,就可以解決這個問題。
  4. 使用不同的合並算法:根據數據的具體性質和合並操作,使用不同的合並算法可以解決這個問題。你可以試著使用不同的合並算法,看看是否可以解決這個問題。
  5. 檢查集群日誌:你可以檢查您的集群的日誌,看是否有任何錯誤或警告,可能與失敗的合並操作。這可以幫助確定問題的根本原因和指導你的故障排除工作。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map