pyspark.sql.DataFrame.sampleBy¶

DataFrame。 sampleBy ( 上校:ColumnOrName,分數:Dict(任何,浮動],種子:可選(int]=沒有一個 )→DataFrame¶

返回一個分層抽樣不重複每層基於給出的分數。

參數

上校 列或str: 列定義地層

添加抽樣的一列列
分數 dict: 每層抽樣比例。如果沒有指定層,我們對待它的分數為零。
種子 int,可選: 隨機種子

返回

一個新的DataFrame這代表了分層抽樣

例子

           > > >從pyspark.sql.functions進口上校> > >數據集=sqlContext。範圍(0,One hundred.)。選擇((上校(“id”)%3)。別名(“關鍵”))> > >采樣=數據集。sampleBy(“關鍵”,分數={0:0.1,1:0.2},種子=0)> > >采樣。groupBy(“關鍵”)。數()。orderBy(“關鍵”)。顯示()+ - - - + - - - +| | |計數的關鍵+ - - - + - - - +| 0 | 3 || 1 | 6 |+ - - - + - - - +> > >數據集。sampleBy(上校(“關鍵”),分數={2:1.0},種子=0)。數()33
          

以前的

pyspark.sql.DataFrame.sample

下一個

pyspark.sql.DataFrame.schema