RandomRDDs<一個類="headerlink" href="//m.eheci.com/api-docs/python/pyspark/latest/api/#randomrdds" title="¶">¶

pyspark.mllib.random。 RandomRDDs

生成器創建我組成的抽樣方法。d一些樣本分布。

方法

exponentialRDD(sc,意思是,大小[…])

生成一個抽樣由先驗知識。

exponentialVectorRDD(sc,意思是,numRows numCols)

生成一個抽樣包含先驗知識組成的向量。

gammaRDD(sc、形狀、規模、大小[…])

生成一個抽樣由先驗知識。

gammaVectorRDD(sc、形狀、規模、numRows…)

生成一個抽樣包含先驗知識組成的向量。

logNormalRDD(sc,意思是,性病,大小[…])

生成一個抽樣由先驗知識。

logNormalVectorRDD(sc,意思是,性病,numRows…)

生成一個抽樣包含先驗知識組成的向量。

normalRDD(sc、大小[numPartitions,種子])

生成一個抽樣由先驗知識。

normalVectorRDD(sc、numRows numCols […])

生成一個抽樣包含先驗知識組成的向量。

poissonRDD(sc,意思是,大小[numPartitions,種子])

生成一個抽樣由先驗知識。

poissonVectorRDD(sc,意思是,numRows numCols)

生成一個抽樣包含先驗知識組成的向量。

uniformRDD(sc、大小[numPartitions,種子])

生成一個抽樣由先驗知識。

uniformVectorRDD(sc、numRows numCols […])

生成一個抽樣包含先驗知識組成的向量。

方法的文檔

靜態 exponentialRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個抽樣由i.i.d.樣本輸入的指數分布的意思。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

的意思是 浮動

意思是,或1 /λ,指數分布。

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的浮子由i.i.d.樣品~ Exp(的意思)。

例子

> > >的意思是=2.0> > >x=RandomRDDsexponentialRDD(sc,的意思是,1000年,種子=2)> > >統計數據=x統計數據()> > >統計數據()1000年> > >腹肌(統計數據的意思是()- - - - - -的意思是)<0.5真正的> > >數學進口√6> > >腹肌(統計數據方差()- - - - - -√6(的意思是))<0.5真正的
靜態 exponentialVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本從輸入的指數分布的意思。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

的意思是 浮動

意思是,或1 /λ,指數分布。

numRows int

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣樣本向量和向量包含i.i.d. ~ Exp(的意思)。

例子

> > >進口numpy作為np> > >的意思是=0.5> > >抽樣=RandomRDDsexponentialVectorRDD(sc,的意思是,One hundred.,One hundred.,種子=1)> > >=np(抽樣收集())> > >形狀(100,100)> > >腹肌(的意思是()- - - - - -的意思是)<0.5真正的> > >數學進口√6> > >腹肌(性病()- - - - - -√6(的意思是))<0.5真正的
靜態 gammaRDD ( sc:pyspark.context.SparkContext,形狀:浮動,規模:浮動,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個抽樣由i.i.d.樣本輸入的伽馬分布形狀和規模。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

形狀 浮動

形狀(> 0)伽馬分布的參數

規模 浮動

規模(> 0)伽馬分布的參數

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的浮子由i.i.d.樣品~γ(形狀、規模)。

例子

> > >數學進口√6> > >形狀=1.0> > >規模=2.0> > >expMean=形狀*規模> > >expStd=√6(形狀*規模*規模)> > >x=RandomRDDsgammaRDD(sc,形狀,規模,1000年,種子=2)> > >統計數據=x統計數據()> > >統計數據()1000年> > >腹肌(統計數據的意思是()- - - - - -expMean)<0.5真正的> > >腹肌(統計數據方差()- - - - - -expStd)<0.5真正的
靜態 gammaVectorRDD ( sc:pyspark.context.SparkContext,形狀:浮動,規模:浮動,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本來自伽馬分布。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

形狀 浮動

伽馬分布的形狀(> 0)

規模 浮動

伽馬分布的規模(> 0)

numRows int

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選的,

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣樣本向量和向量包含i.i.d. ~γ(形狀、規模)。

例子

> > >進口numpy作為np> > >數學進口√6> > >形狀=1.0> > >規模=2.0> > >expMean=形狀*規模> > >expStd=√6(形狀*規模*規模)> > >=np矩陣(RandomRDDsgammaVectorRDD(sc,形狀,規模,One hundred.,One hundred.,種子=1)收集())> > >形狀(100,100)> > >腹肌(的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(性病()- - - - - -expStd)<0.1真正的
靜態 logNormalRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,性病:浮動,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個抽樣由i.i.d.樣本輸入的對數正態分布均值和標準分布。

參數
sc pyspark.SparkContext

用於創建抽樣。

的意思是 浮動

意味著為對數正態分布

性病 浮動

性病的對數正態分布

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
抽樣的浮子由i.i.d.樣品~ o (log N)(意思是,std)。

例子

> > >數學進口√6,經驗值> > >的意思是=0.0> > >性病=1.0> > >expMean=經驗值(的意思是+0.5*性病*性病)> > >expStd=√6((經驗值(性病*性病)- - - - - -1.0)*經驗值(2.0*的意思是+性病*性病))> > >x=RandomRDDslogNormalRDD(sc,的意思是,性病,1000年,種子=2)> > >統計數據=x統計數據()> > >統計數據()1000年> > >腹肌(統計數據的意思是()- - - - - -expMean)<0.5真正的> > >數學進口√6> > >腹肌(統計數據方差()- - - - - -expStd)<0.5真正的
靜態 logNormalVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,性病:浮動,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本的對數正態分布。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

的意思是 浮動

對數正態分布的均值

性病 浮動

對數正態分布的標準偏差

numRows int

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣樣本向量和向量包含i.i.d. ~日誌N(意思是,std)

例子

> > >進口numpy作為np> > >數學進口√6,經驗值> > >的意思是=0.0> > >性病=1.0> > >expMean=經驗值(的意思是+0.5*性病*性病)> > >expStd=√6((經驗值(性病*性病)- - - - - -1.0)*經驗值(2.0*的意思是+性病*性病))> > >=RandomRDDslogNormalVectorRDD(sc,的意思是,性病,One hundred.,One hundred.,種子=1)收集()> > >=np矩陣()> > >形狀(100,100)> > >腹肌(的意思是()- - - - - -expMean)<0.1真正的> > >腹肌(性病()- - - - - -expStd)<0.1真正的
靜態 normalRDD ( sc:pyspark.context.SparkContext,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個i.i.d.組成的抽樣樣本的標準正態分布。

將從標準正態分布生成的抽樣其他正常N(意思是,σ^ 2),使用RandomRDDs.normal (sc,n,p,種子). map(λv:的意思是+σ*v)

參數
sc pyspark.SparkContext

用於創建抽樣。

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的浮子由i.i.d.樣品~ N (0.0, 1.0)。

例子

> > >x=RandomRDDsnormalRDD(sc,1000年,種子=1)> > >統計數據=x統計數據()> > >統計數據()1000年> > >腹肌(統計數據的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(統計數據方差()- - - - - -1.0)<0.1真正的
靜態 normalVectorRDD ( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本來自正態分布的標準。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

numRows int

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的向量和向量包含i.i.d.樣品~N (0.0, 1.0)

例子

> > >進口numpy作為np> > >=np矩陣(RandomRDDsnormalVectorRDD(sc,One hundred.,One hundred.,種子=1)收集())> > >形狀(100,100)> > >腹肌(的意思是()- - - - - -0.0)<0.1真正的> > >腹肌(性病()- - - - - -1.0)<0.1真正的
靜態 poissonRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個抽樣由i.i.d.樣本輸入的泊鬆分布的意思。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

的意思是 浮動

意思是,或λ,泊鬆分布。

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的浮子由i.i.d.樣品~ Pois(的意思)。

例子

> > >的意思是=100.0> > >x=RandomRDDspoissonRDD(sc,的意思是,1000年,種子=2)> > >統計數據=x統計數據()> > >統計數據()1000年> > >腹肌(統計數據的意思是()- - - - - -的意思是)<0.5真正的> > >數學進口√6> > >腹肌(統計數據方差()- - - - - -√6(的意思是))<0.5真正的
靜態 poissonVectorRDD ( sc:pyspark.context.SparkContext,的意思是:浮動,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本來自泊鬆分布與輸入的意思。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

的意思是 浮動

意思是,或λ,泊鬆分布。

numRows 浮動

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣樣本向量和向量包含i.i.d. ~ Pois(的意思)。

例子

> > >進口numpy作為np> > >的意思是=100.0> > >抽樣=RandomRDDspoissonVectorRDD(sc,的意思是,One hundred.,One hundred.,種子=1)> > >=np(抽樣收集())> > >形狀(100,100)> > >腹肌(的意思是()- - - - - -的意思是)<0.5真正的> > >數學進口√6> > >腹肌(性病()- - - - - -√6(的意思是))<0.5真正的
靜態 uniformRDD ( sc:pyspark.context.SparkContext,大小:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD(浮動]

生成一個抽樣由i.i.d.樣本均勻分布U (0.0, 1.0)。

將在生成的抽樣分布從U (0.0, 1.0) (a、b),使用RandomRDDs.uniformRDD (sc,n,p,種子). map(λv:一個+(b- - - - - -一)*v)

參數
sc pyspark.SparkContext

用於創建抽樣。

大小 int

抽樣的大小。

numPartitions int,可選

抽樣數量的分區(默認值:sc.defaultParallelism)。

種子 int,可選

隨機種子(默認值:一個隨機整數)。

返回
pyspark.RDD

抽樣的浮動~ i.i.d.組成的樣本U (0.0, 1.0)

例子

> > >x=RandomRDDsuniformRDD(sc,One hundred.)收集()> > >len(x)One hundred.> > >馬克斯(x)< =1.0最小值(x)> =0.0真正的> > >RandomRDDsuniformRDD(sc,One hundred.,4)getNumPartitions()4> > >部分=RandomRDDsuniformRDD(sc,One hundred.,種子=4)getNumPartitions()> > >部分= =scdefaultParallelism真正的
靜態 uniformVectorRDD ( sc:pyspark.context.SparkContext,numRows:int,numCols:int,numPartitions:可選(int]=沒有一個,種子:可選(int]=沒有一個 )→pyspark.rdd.RDD( pyspark.mllib.linalg.Vector ]

生成一個包含i.i.d.向量組成的抽樣樣本來自均勻分布U (0.0, 1.0)。

參數
sc pyspark.SparkContext

SparkContext用來創建抽樣。

numRows int

抽樣數量的向量。

numCols int

在每個向量的元素數量。

numPartitions int,可選

抽樣數量的分區。

種子 int,可選

RNG產生種子的種子每個分區的發電機。

返回
pyspark.RDD

包含我抽樣向量和向量。d樣品~U (0.0, 1.0)

例子

> > >進口numpy作為np> > >=np矩陣(RandomRDDsuniformVectorRDD(sc,10,10)收集())> > >形狀(10,10)> > >馬克斯()< =1.0最小值()> =0.0真正的> > >RandomRDDsuniformVectorRDD(sc,10,10,4)getNumPartitions()4