pyspark.sql.GroupedData.apply¶

GroupedData。 應用 ( udf:GroupedMapPandasUserDefinedFunction )→pyspark.sql.dataframe.DataFrame¶

這是一個別名pyspark.sql.GroupedData.applyInPandas ();然而,它需要一個pyspark.sql.functions.pandas_udf ()而pyspark.sql.GroupedData.applyInPandas ()Python本機函數。

參數

udf pyspark.sql.functions.pandas_udf (): 一個分組地圖返回的用戶定義函數pyspark.sql.functions.pandas_udf ()。

另請參閱

pyspark.sql.functions.pandas_udf

筆記

優先使用pyspark.sql.GroupedData.applyInPandas ()這個API。這個API將在將來的版本中被棄用。

例子

           > > >從pyspark.sql.functions進口pandas_udf,PandasUDFType> > >df=火花。createDataFrame(…((1,1.0),(1,2.0),(2,3.0),(2,5.0),(2,10.0)),…(“id”,“v”))> > >@pandas_udf(“id, v雙”,PandasUDFType。GROUPED_MAP)…def正常化(pdf):…v=pdf。v…返回pdf。分配(v=(v- - - - - -v。的意思是())/v。性病())> > >df。groupby(“id”)。應用(正常化)。顯示()+ - - - + - - - - - - - - - - - - - - - - - - - +v | | | id+ - - - + - - - - - - - - - - - - - - - - - - - +| 1 | -0.7071067811865475 || 1 | 0.7071067811865475 || 2 | -0.8320502943378437 || 2 | -0.2773500981126146 || 2 | 1.1094003924504583 |+ - - - + - - - - - - - - - - - - - - - - - - - +
          

以前的

pyspark.sql.GroupedData.agg

下一個

pyspark.sql.GroupedData.applyInPandas