pyspark.sql.GroupedData.apply

GroupedData。 應用 ( udf:GroupedMapPandasUserDefinedFunction )→pyspark.sql.dataframe.DataFrame

這是一個別名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一個pyspark.sql.functions.pandas_udf ()pyspark.sql.GroupedData.applyInPandas ()Python本機函數。

參數
udf pyspark.sql.functions.pandas_udf ()

一個分組地圖返回的用戶定義函數pyspark.sql.functions.pandas_udf ()

筆記

優先使用pyspark.sql.GroupedData.applyInPandas ()這個API。這個API將在將來的版本中被棄用。

例子

> > >pyspark.sql.functions進口pandas_udf,PandasUDFType> > >df=火花createDataFrame(((1,1.0),(1,2.0),(2,3.0),(2,5.0),(2,10.0)),(“id”,“v”))> > >@pandas_udf(“id, v雙”,PandasUDFTypeGROUPED_MAP)def正常化(pdf):v=pdfv返回pdf分配(v=(v- - - - - -v的意思是())/v性病())> > >dfgroupby(“id”)應用(正常化)顯示()+ - - - + - - - - - - - - - - - - - - - - - - - +v | | | id+ - - - + - - - - - - - - - - - - - - - - - - - +| 1 | -0.7071067811865475 || 1 | 0.7071067811865475 || 2 | -0.8320502943378437 || 2 | -0.2773500981126146 || 2 | 1.1094003924504583 |+ - - - + - - - - - - - - - - - - - - - - - - - +