pyspark.sql.GroupedData¶
-
類
pyspark.sql。
GroupedData
( jgd:py4j.java_gateway.JavaObject,df:pyspark.sql.dataframe.DataFrame ) ¶ -
一組的聚合方法
DataFrame
,由DataFrame.groupBy ()
。方法
gg
(* exprs)計算聚合並返回結果
DataFrame
。應用
(udf)這是一個別名
pyspark.sql.GroupedData.applyInPandas ()
;然而,它需要一個pyspark.sql.functions.pandas_udf ()
而pyspark.sql.GroupedData.applyInPandas ()
Python本機函數。applyInPandas
(函數模式)地圖每組的電流
DataFrame
使用一個熊貓udf和返回結果DataFrame。avg
(*峽路)計算平均值為每組每個數字列。
cogroup
(其他)Cogroups這組與另一組,這樣我們可以運行cogrouped操作。
數
()計算每組的數量的記錄。
馬克斯
(*峽路)計算每個數字列的最大價值為每個組。
的意思是
(*峽路)計算平均值為每組每個數字列。
最小值
(*峽路)計算最小值為每組每個數字列。
主
(pivot_col[、價值觀)軸心的一列
DataFrame
並執行指定的聚合。總和
(*峽路)計算每個組每個數字列的總和。