你好,
我們隻是開始看磚的特性存儲功能。我們第一次嚐試創建一個功能表導致非常緩慢的寫。為了避免所發生的時間特性的功能我生成dataframe相同鍵的,但從蘭德()生成的特征值。這是< 700 k行和列~ 280特性。它似乎不在乎我們是否使用合並模式或覆蓋,這是非常緩慢的獨立的4核心集群上(8.5分鍾)。我從Sparq連接SQL細節UI。是在3.5秒掃描文件匹配和近8.5分鍾重寫匹配的文件。雖然它似乎1.5 gb的輸出,似乎相當長時間重新更改。我試過和沒有分區,重新分區。誰能提供一些見解或建議改善的性能特性/δ表寫?
問候,
阿什利