pyspark.sql.DataFrame.sampleBy¶
-
DataFrame。
sampleBy
( 上校:ColumnOrName,分數:Dict(任何,浮動],種子:可選(int]=沒有一個 )→DataFrame¶ -
返回一個分層抽樣不重複每層基於給出的分數。
- 參數
- 返回
-
-
一個新的
DataFrame
這代表了分層抽樣
-
一個新的
例子
> > >從pyspark.sql.functions進口上校> > >數據集=sqlContext。範圍(0,One hundred.)。選擇((上校(“id”)%3)。別名(“關鍵”))> > >采樣=數據集。sampleBy(“關鍵”,分數={0:0.1,1:0.2},種子=0)> > >采樣。groupBy(“關鍵”)。數()。orderBy(“關鍵”)。顯示()+ - - - + - - - +| | |計數的關鍵+ - - - + - - - +| 0 | 3 || 1 | 6 |+ - - - + - - - +> > >數據集。sampleBy(上校(“關鍵”),分數={2:1.0},種子=0)。數()33