08-13-2021上午07:07
你好,
我想讓我的整個世鵬科技電子值數據集使用熊貓udf的每個類別分類變量。它當我運行它運行在幾個類別,但當我想要我工作在整個數據集上運行函數失敗。我看到泄漏內存和磁盤和洗牌讀大約是40 gb。我不確定如何優化我的火花工作在這裏,我增加了核160以及內存對於司機和工人但仍未成功。
任何建議將高度讚賞。
謝謝
08-16-2021上午07:23
能夠完成它通過增加司機的記憶!
08-16-202109:01點
我想用data.groupby.apply()函數應用於每一行的Pyspark Dataframe每組。
我使用了分組地圖熊貓udf。但是我不知道如何添加另一個參數函數。DGCustomerFirst調查
我試著使用參數作為一個全局變量但功能並不認識它似的(我的論點是pyspark dataframe)
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。