KMeans

pyspark.mllib.clustering。 KMeans

k - means聚類。

方法

火車抽樣,k [、maxIterations…])

火車一個k - means聚類模型。

方法的文檔

classmethod 火車 ( 抽樣:pyspark.rdd.RDD(VectorLike],k:int,maxIterations:int=One hundred.,initializationMode:str=“k - means | |”,種子:可選(int]=沒有一個,initializationSteps:int=2,ε:浮動=0.0001,initialModel:可選(pyspark.mllib.clustering.KMeansModel]=沒有一個,distanceMeasure:str=“歐幾裏得” )→KMeansModel

火車一個k - means聚類模型。

參數
抽樣 :pyspark.RDD

作為一個訓練點抽樣pyspark.mllib.linalg.Vector或可轉換序列類型。

k int

創建集群的數量。

maxIterations int,可選

允許的最大迭代數。(默認:100)

initializationMode str,可選

初始化算法。這可以是“隨機”或“k - means | |”。(默認:“k - means | |”)

種子 int,可選

集群隨機種子值初始化。基於係統時間設置為不產生種子。(默認值:無)

initializationSteps:

許多步驟的k - means | |初始化模式。這是一個高級設置,默認為2幾乎總是足夠的。(默認值:2)

ε 浮動,可選

距離閾值內,中心將被認為已經聚集。如果所有的中心移動小於這個歐幾裏得距離,迭代停止。(默認值:1)的軍醫

initialModel KMeansModel、可選

初始聚類中心可以提供作為KMeansModel對象而不是使用隨機或k - means | | initializationModel。(默認值:無)

distanceMeasure str,可選

距離測量所使用的k - means算法。(默認:“歐幾裏得”)