最佳集群設置密集轉變我們……-磚- 39401

AChang · 周二

我有pyspark dataframe、61 k行3列,其中一個是一個字符串列的最大長度是4 k。我做的大約100個不同regexp_replace dataframe功能,因此,資源密集型。我想寫這個差值表,但似乎無論如何計算我用我似乎不能讓它運行在一個小時。我知道這個工作因為我有限的500行代碼測試和它在大約30秒跑,所以我知道它隻是與數據的大小。之前有人做過如此規模的,你知道我如何得到這個運行在一個小時內沒有打破銀行嗎?

萊奧納多 · 周三

看來你想申請轉換,但它的基本的東西,所以我去的最佳實踐文檔和找到一個方法來創建一個compute-optimized集群。

Ref。https://docs.m.eheci.com/en/clusters/cluster-config-best-practices.html basic-batch-etl

磚

最好的集群設置密集的轉換工作負載