優化批量裝載過程,閱讀…-磚- 21086 - beplay体育赛事,Beplay体育安卓版本

我正在做一批負載,使用JDBC驅動程序從數據庫表。我注意到在Sparkui,石油泄漏兩種內存和磁盤,但隻能在一個執行人。我也注意到,當試圖使用JDBC平行閱讀,它似乎運行慢,然後離開違約。

一些細節:

我有4個工人,8 GB
源表大約是8000萬行
我用一個“dateloaded”分區列。
sqlContext.setConf (“spark.sql.shuffle.partitions”、“4”),設置調整分區大小。是否正確設置洗牌執行人計數?
numPartitions = 12,它正確的理想是每3 - 4任務執行者?

“dateloaded”不是一個主鍵,但指數。泄漏數據傾斜的結果嗎?或者我太少/許多分區洗牌或讀嗎?

0回答0

從未顯出

你必須在添加附件簽署

從未顯出

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。