pyspark.sql.Observation¶

類 pyspark.sql。 觀察 ( 的名字:可選(str]=沒有一個 ) ¶

類來觀察(命名)指標DataFrame。

指標聚合表達式,應用於DataFrame雖然正在處理一個動作。

指標有以下保證:

它將計算定義的聚合(指標)的所有數據,在數據集內的流動在行動。
它將報告的價值定義聚合列一旦我們到達的最後行動。

指標列必須包含一個文本(如點燃(42)),或者應該包含一個或多個聚合函數(例如sum (a)或(a + b) +和avg (c) -點燃(1))。表達式包含輸入數據集引用的列必須包裝在一個聚合函數。

觀察實例收集度量標準,而第一個行動是執行。後續行動不要修改返回的指標Observation.get。檢索度規的通過Observation.get塊直到第一次行動已經完成和指標可用。

筆記

這個類不支持流媒體數據集。

例子

           > > >從pyspark.sql.functions進口上校,數,點燃,馬克斯> > >從pyspark.sql進口觀察> > >df=火花。createDataFrame([[“愛麗絲”,2),(“Bob”,5]],(“名稱”,“年齡”])> > >觀察=觀察(“我的指標”)> > >observed_df=df。觀察(觀察,數(點燃(1))。別名(“數”),馬克斯(上校(“年齡”)))> > >observed_df。數()2> > >觀察。得到{“計數”:2,“馬克斯(年齡)”:5}
          

屬性

得到

觀察指標。

以前的

pyspark.sql.Column

下一個

pyspark.sql.Row