KMeans¶
-
類
pyspark.mllib.clustering。
KMeans
¶ -
k - means聚類。
方法
火車
抽樣,k [、maxIterations…])火車一個k - means聚類模型。
方法的文檔
-
classmethod
火車
( 抽樣:pyspark.rdd.RDD(VectorLike],k:int,maxIterations:int=One hundred.,initializationMode:str=“k - means | |”,種子:可選(int]=沒有一個,initializationSteps:int=2,ε:浮動=0.0001,initialModel:可選(pyspark.mllib.clustering.KMeansModel]=沒有一個,distanceMeasure:str=“歐幾裏得” )→KMeansModel¶ -
火車一個k - means聚類模型。
- 參數
-
-
抽樣
:
pyspark.RDD
-
作為一個訓練點抽樣的
pyspark.mllib.linalg.Vector
或可轉換序列類型。 - k int
-
創建集群的數量。
- maxIterations int,可選
-
允許的最大迭代數。(默認:100)
- initializationMode str,可選
-
初始化算法。這可以是“隨機”或“k - means | |”。(默認:“k - means | |”)
- 種子 int,可選
-
集群隨機種子值初始化。基於係統時間設置為不產生種子。(默認值:無)
- initializationSteps:
-
許多步驟的k - means | |初始化模式。這是一個高級設置,默認為2幾乎總是足夠的。(默認值:2)
- ε 浮動,可選
-
距離閾值內,中心將被認為已經聚集。如果所有的中心移動小於這個歐幾裏得距離,迭代停止。(默認值:1)的軍醫
-
initialModel
KMeansModel
、可選 -
初始聚類中心可以提供作為KMeansModel對象而不是使用隨機或k - means | | initializationModel。(默認值:無)
- distanceMeasure str,可選
-
距離測量所使用的k - means算法。(默認:“歐幾裏得”)
-
抽樣
:
-
classmethod