pyspark.sql.DataFrame.sampleBy

DataFrame。 sampleBy ( 上校:ColumnOrName,分數:Dict(任何,浮動],種子:可選(int]=沒有一個 )→DataFrame

返回一個分層抽樣不重複每層基於給出的分數。

參數
上校 或str

列定義地層

添加抽樣的一列

分數 dict

每層抽樣比例。如果沒有指定層,我們對待它的分數為零。

種子 int,可選

隨機種子

返回
一個新的DataFrame這代表了分層抽樣

例子

> > >pyspark.sql.functions進口上校> > >數據集=sqlContext範圍(0,One hundred.)選擇((上校(“id”)%3)別名(“關鍵”))> > >采樣=數據集sampleBy(“關鍵”,分數={0:0.1,1:0.2},種子=0)> > >采樣groupBy(“關鍵”)()orderBy(“關鍵”)顯示()+ - - - + - - - +| | |計數的關鍵+ - - - + - - - +| 0 | 3 || 1 | 6 |+ - - - + - - - +> > >數據集sampleBy(上校(“關鍵”),分數={2:1.0},種子=0)()33