包表達式
- 字母
- 公共
- 所有
類型成員
- 文摘類聚合器(——,緩衝區,出]擴展可序列化的
基類定義的聚合,可以使用
數據集
操作所有的元素的一組,並減少一個值。基類定義的聚合,可以使用
數據集
操作所有的元素的一組,並減少一個值。例如,下麵的聚合器提取一個
int
從一個特定的類並將它們添加:情況下類數據(我:Int)瓦爾customSummer =新聚合器(數據,Int,Int){def零:Int=0def減少(b:Int答:數據):Int= b +我def合並(b1:Intb2:Int):Int= b1和b2def完成(r:Int):Int= rdefbufferEncoder:編碼器(Int]= Encoders.scalaIntdefoutputEncoder:編碼器(Int]= Encoders.scalaInt}.toColumn()瓦爾ds:數據集(數據)=…瓦爾聚合= ds.select (customSummer)
鬆散地基於聚合器從Algebird: https://github.com/twitter/algebird
- 在
-
輸入類型的聚合。
- 緩衝區
-
減少的中間值的類型。
- 出
-
最終的輸出結果的類型。
- 自
-
1.6.0
- 文摘類MutableAggregationBuffer擴展行
一個
行
代表一個可變聚合緩衝區。一個
行
代表一個可變聚合緩衝區。這並不意味著被延長以外的火花。
- 注釋
- @Stable ()
- 自
-
1.5.0
- 密封的抽象類UserDefinedFunction擴展AnyRef
一個用戶定義的函數。
一個用戶定義的函數。創建一個使用
udf
函數功能
。作為一個例子:
/ /定義一個UDF返回真或假基於一些數字的分數。瓦爾預測= udf(分數:雙)= >分數>0.5)/ /項目列添加一個基於分數預測列列。df。選擇(預測(df (“分數”)))
- 注釋
- @Stable ()
- 自
-
1.3.0
- 類窗口擴展AnyRef
在DataFrames效用函數定義窗口。
在DataFrames效用函數定義窗口。
/ /分區由國家按日期順序行之間無限前和當前行Window.partitionBy (“國家”).orderBy (“日期”).rowsBetween(窗口。unboundedPreceding Window.currentRow)/ /分區由國家按日期順序排前3和3之間Window.partitionBy (“國家”).orderBy (“日期”).rowsBetween (-3,3)
- 注釋
- @Stable ()
- 自
-
1.4.0
- 類WindowSpec擴展AnyRef
一個窗口規範,定義了分區,排序,和幀邊界。
一個窗口規範,定義了分區,排序,和幀邊界。
使用靜態方法窗口創建一個WindowSpec。
- 注釋
- @Stable ()
- 自
-
1.4.0
- 文摘類UserDefinedAggregateFunction擴展可序列化的
實現的基類定義的聚合函數(UDAF)。
實現的基類定義的聚合函數(UDAF)。
- 注釋
- @Stable () @deprecated
- 棄用
-
(因為3.0.0版本)
- 自
-
1.5.0
值的成員
- 對象窗口
在DataFrames效用函數定義窗口。
在DataFrames效用函數定義窗口。
/ /分區由國家按日期順序行之間無限前和當前行Window.partitionBy (“國家”).orderBy (“日期”).rowsBetween(窗口。unboundedPreceding Window.currentRow)/ /分區由國家按日期順序排前3和3之間Window.partitionBy (“國家”).orderBy (“日期”).rowsBetween (-3,3)
- 注釋
- @Stable ()
- 自
-
1.4.0
- 請注意
-
在訂購時沒有定義,一個無界的窗框(rowFrame、unboundedPreceding unboundedFollowing)默認情況下使用。定義在訂購時,越來越多的窗框(rangeFrame、unboundedPreceding currentRow)默認情況下使用。