pyspark.sql.Observation¶
-
類
pyspark.sql。
觀察
( 的名字:可選(str]=沒有一個 ) ¶ -
類來觀察(命名)指標
DataFrame
。指標聚合表達式,應用於DataFrame雖然正在處理一個動作。
指標有以下保證:
它將計算定義的聚合(指標)的所有數據,在數據集內的流動在行動。
它將報告的價值定義聚合列一旦我們到達的最後行動。
指標列必須包含一個文本(如點燃(42)),或者應該包含一個或多個聚合函數(例如sum (a)或(a + b) +和avg (c) -點燃(1))。表達式包含輸入數據集引用的列必須包裝在一個聚合函數。
觀察實例收集度量標準,而第一個行動是執行。後續行動不要修改返回的指標Observation.get。檢索度規的通過Observation.get塊直到第一次行動已經完成和指標可用。
筆記
這個類不支持流媒體數據集。
例子
> > >從pyspark.sql.functions進口上校,數,點燃,馬克斯> > >從pyspark.sql進口觀察> > >df=火花。createDataFrame([[“愛麗絲”,2),(“Bob”,5]],(“名稱”,“年齡”])> > >觀察=觀察(“我的指標”)> > >observed_df=df。觀察(觀察,數(點燃(1))。別名(“數”),馬克斯(上校(“年齡”)))> > >observed_df。數()2> > >觀察。得到{“計數”:2,“馬克斯(年齡)”:5}
屬性
觀察指標。