再保險:熊貓udf類型分組地圖失敗-磚- 16545

user_b22ce5eeAl · ‎08-13-2021

你好,

我想讓我的整個世鵬科技電子值數據集使用熊貓udf的每個類別分類變量。它當我運行它運行在幾個類別,但當我想要我工作在整個數據集上運行函數失敗。我看到泄漏內存和磁盤和洗牌讀大約是40 gb。我不確定如何優化我的火花工作在這裏,我增加了核160以及內存對於司機和工人但仍未成功。

任何建議將高度讚賞。

謝謝

user_b22ce5eeAl · ‎08-16-2021

能夠完成它通過增加司機的記憶!

傑克遜 · ‎08-16-2021

我想用data.groupby.apply()函數應用於每一行的Pyspark Dataframe每組。

我使用了分組地圖熊貓udf。但是我不知道如何添加另一個參數函數。DGCustomerFirst調查

我試著使用參數作為一個全局變量但功能並不認識它似的(我的論點是pyspark dataframe)