MLlib (DataFrame-based)

管道的api

變壓器()

抽象類的變壓器變換一個數據集到另一個。

UnaryTransformer()

抽象類為《變形金剛》,一個輸入欄,應用轉換和輸出結果作為一個新列。

估計量()

抽象類的估計數據模型。

模型()

抽象類所擬合的模型估計。

預測()

預測估計任務(回歸和分類)。

PredictionModel()

預測模型的任務(回歸和分類)。

管道(*(階段))

一個簡單的管道,它充當一個估計量。

PipelineModel(階段)

代表一個編譯管道變形金剛和擬合模型。

參數

參數(父、名稱、doc (typeConverter])

與獨立參數文檔。

參數個數()

組件的參數。

TypeConverters

工廠方法常見的類型轉換函數Param.typeConverter

功能

Binarizer(*(閾值、inputCol…))

Binarize一列連續給定的閾值特性。

BucketedRandomProjectionLSH(* (inputCol,…))

激光衝徊化類歐氏距離度量。

BucketedRandomProjectionLSHModel([java_model])

模型擬合的BucketedRandomProjectionLSH,多維隨機向量存儲。

Bucketizer(*(分裂,inputCol、outputCol…))

一列連續特性映射到列桶的特性。

ChiSqSelector(* (numTopFeatures,…))

卡方特征選擇,選擇分類特征用於預測分類標簽。

ChiSqSelectorModel([java_model])

模型擬合的ChiSqSelector

CountVectorizer(* [,minDF minTF maxDF,…))

從文檔集合中提取一個詞彙表,生成一個CountVectorizerModel

CountVectorizerModel([java_model])

模型擬合的CountVectorizer

DCT(*(逆,inputCol outputCol])

變壓器的特性,以一個真正的一維離散餘弦變換向量。

ElementwiseProduct(* (scalingVec,…))

產品(即輸出阿達瑪。element-wise產品)提供的每個輸入向量與向量“重量”。

FeatureHasher(* [,inputCols numFeatures…))

功能散列項目一組分類或指定的數值特征的特征向量維度(通常遠遠小於原始特征空間的)。

HashingTF(* [numFeatures,二進製,…)

一係列術語映射到他們的詞頻率使用哈希的訣竅。

以色列國防軍(* [,inputCol minDocFreq outputCol])

計算逆文檔頻率(IDF)給定文檔的集合。

IDFModel([java_model])

模型擬合的以色列國防軍

輸入(*[、戰略、missingValue…))

歸責估計完成缺失值,使用均值、中值或模式的缺失值的列。

ImputerModel([java_model])

模型擬合的輸入

IndexToString(* [inputCol outputCol,標簽])

一個pyspark.ml.base.Transformer映射的指數回到一個新列一列對應的字符串值。

交互(* [、inputCols outputCol])

實現了功能交互變換。

MaxAbsScaler(* [、inputCol outputCol])

重新調節每個特性單獨範圍[1]通過最大的最大絕對值除以每個特性。

MaxAbsScalerModel([java_model])

模型擬合的MaxAbsScaler

MinHashLSH(* (inputCol outputCol,種子,…))

激光衝徊化類Jaccard距離。

MinHashLSHModel([java_model])

模型由MinHashLSH,存儲在多個哈希函數。

MinMaxScaler(*[,最小,最大、inputCol outputCol])

重新調節每個特性單獨一個共同的範圍(最小,最大)線性使用列的彙總統計,也稱為min-max標準化或重新調節。

MinMaxScalerModel([java_model])

模型擬合的MinMaxScaler

NGram(* [n inputCol outputCol])

變壓器的特性,將輸入的字符串數組轉換成一個字格數組。

標準化者(* [p inputCol outputCol])

標準化一個向量單位使用給定p-norm規範。

OneHotEncoder(* [,outputCols inputCols…))

一個地圖的一個炎熱的編碼器類別索引的列的列二進製向量,每行最多一個一個值,指示輸入類別索引。

OneHotEncoderModel([java_model])

模型擬合的OneHotEncoder

主成分分析(* [k inputCol outputCol])

PCA火車模型項目的低維空間向量k主要組件。

PCAModel([java_model])

模型擬合的主成分分析

PolynomialExpansion(*[學位,inputCol…))

執行功能在一個多項式空間的擴張。

QuantileDiscretizer(* (numBuckets,…))

QuantileDiscretizer獲取一列一列連續特性和輸出與被分類特性。

RobustScaler(*(低,上部,…)

RobustScaler刪除中間值和尺度根據分位數的數據範圍。

RobustScalerModel([java_model])

模型擬合的RobustScaler

RegexTokenizer(* (minTokenLength,差距,…))

一個基於正則表達式的編譯器,提取標記通過使用提供的正則表達式模式(在Java方言)將文本(默認)或多次匹配正則表達式(如果差距是假的)。

RFormula(*(公式、featuresCol…))

實現所需的變換擬合數據集對R模型公式。

RFormulaModel([java_model])

模型擬合的RFormula

SQLTransformer(*(、語句))

實現定義的SQL語句的轉換。

StandardScaler(* [,withStd withMean…))

標準化特性通過刪除單元方差均值和擴展使用列彙總統計的樣本訓練集。

StandardScalerModel([java_model])

模型擬合的StandardScaler

StopWordsRemover(* [,outputCol inputCol…))

變壓器的特性,過濾掉阻止語言輸入。

StringIndexer(* [,outputCol inputCol…))

一個標簽索引器映射一個字符串列的索引標簽的ML列標簽。

StringIndexerModel([java_model])

模型擬合的StringIndexer

分詞器(* [、inputCol outputCol])

一個編譯器,將輸入字符串轉換為小寫,然後分裂的空白。

UnivariateFeatureSelector(* (featuresCol,…))

功能選擇器對標簽。基於單變量統計測試

UnivariateFeatureSelectorModel([java_model])

模型擬合的UnivariateFeatureSelector

VarianceThresholdSelector(* (featuresCol,…))

功能選擇器,刪除所有低溫度差的特性。

VarianceThresholdSelectorModel([java_model])

模型擬合的VarianceThresholdSelector

VectorAssembler(* [,outputCol inputCols…))

變壓器的特性,合並多個列成一個向量列。

VectorIndexer(* [,inputCol maxCategories…))

類索引分類特征列的數據集向量

VectorIndexerModel([java_model])

模型擬合的VectorIndexer

VectorSizeHint(* [inputCol,大小,…))

變壓器的特性,將大小信息添加到元數據向量的列。

VectorSlicer(* [,outputCol inputCol…))

這門課需要一個特征向量和輸出向量的一個新特性子數組的原始特性。

Word2Vec(* [,minCount vectorSize…))

Word2Vec火車的模型矢量地圖(字符串),即

Word2VecModel([java_model])

模型擬合的Word2Vec

分類

LinearSVC(* [,labelCol featuresCol…))

這種二元分類器使用OWLQN優化器優化鉸鏈損失。

LinearSVCModel([java_model])

由LinearSVC模型擬合。

LinearSVCSummary([java_obj])

抽象LinearSVC結果對於一個給定的模型。

LinearSVCTrainingSummary([java_obj])

抽象LinearSVC培訓結果。

LogisticRegression(* (featuresCol,…))

邏輯回歸。

LogisticRegressionModel([java_model])

由LogisticRegression模型擬合。

LogisticRegressionSummary([java_obj])

對於一個給定的模型抽象為邏輯回歸結果。

LogisticRegressionTrainingSummary([java_obj])

抽象多項邏輯回歸訓練的結果。

BinaryLogisticRegressionSummary([java_obj])

二元邏輯回歸結果對於一個給定的模型。

BinaryLogisticRegressionTrainingSummary([…])

二元邏輯回歸訓練結果對於一個給定的模型。

DecisionTreeClassifier(* (featuresCol,…))

決策樹學習算法的分類。它同時支持二進製和多類標簽,以及連續和分類功能。

DecisionTreeClassificationModel([java_model])

由DecisionTreeClassifier模型擬合。

GBTClassifier(* [,labelCol featuresCol…))

Gradient-Boosted樹(GBTs)學習算法的分類。它支持二進製標簽,以及連續和分類功能。

GBTClassificationModel([java_model])

由GBTClassifier模型擬合。

RandomForestClassifier(* (featuresCol,…))

隨機森林學習算法的分類。它同時支持二進製和多類標簽,以及連續和分類功能。

RandomForestClassificationModel([java_model])

由RandomForestClassifier模型擬合。

RandomForestClassificationSummary([java_obj])

抽象RandomForestClassification結果對於一個給定的模型。

RandomForestClassificationTrainingSummary([…])

抽象RandomForestClassificationTraining培訓結果。

BinaryRandomForestClassificationSummary([…])

BinaryRandomForestClassification結果對於一個給定的模型。

BinaryRandomForestClassificationTrainingSummary([…])

BinaryRandomForestClassification培訓結果對於一個給定的模型。

NaiveBayes(* [,labelCol featuresCol…))

樸素貝葉斯分類器。

NaiveBayesModel([java_model])

由NaiveBayes模型擬合。

MultilayerPerceptronClassifier(* […])

分類器訓練基於多層感知器。

MultilayerPerceptronClassificationModel([…])

由MultilayerPerceptronClassifier模型擬合。

MultilayerPerceptronClassificationSummary([…])

抽象MultilayerPerceptronClassifier結果對於一個給定的模型。

MultilayerPerceptronClassificationTrainingSummary([…])

抽象MultilayerPerceptronClassifier培訓結果。

OneVsRest(* [,labelCol featuresCol…))

減少多級分類二進製分類。

OneVsRestModel(模型)

由OneVsRest模型擬合。

FMClassifier(* [,labelCol featuresCol…))

分解機器學習算法的分類。

FMClassificationModel([java_model])

模型擬合的FMClassifier

FMClassificationSummary([java_obj])

抽象FMClassifier結果對於一個給定的模型。

FMClassificationTrainingSummary([java_obj])

抽象FMClassifier培訓結果。

聚類

BisectingKMeans(* (featuresCol,…))

平分的k - means算法在紙上“比較文檔聚類技術”施泰因巴赫通過,Karypis,庫馬爾,修改以適應火花。

BisectingKMeansModel([java_model])

由BisectingKMeans模型擬合。

BisectingKMeansSummary([java_obj])

平分KMeans聚類結果對於一個給定的模型。

KMeans(* (featuresCol predictionCol, k,…))

與這樣的k - means + + k - means聚類初始化模式(k - means | | Bahmani等算法)。

KMeansModel([java_model])

由KMeans模型擬合。

KMeansSummary([java_obj])

KMeans的總結。

GaussianMixture(* (featuresCol,…))

GaussianMixture集群。

GaussianMixtureModel([java_model])

由GaussianMixture模型擬合。

GaussianMixtureSummary([java_obj])

高斯混合聚類結果對於一個給定的模型。

喬治。(* (featuresCol麥克斯特,種子,…))

潛在狄利克雷分配(LDA),主題為文本文檔設計模型。

LDAModel([java_model])

潛在狄利克雷分配(LDA)模型。

LocalLDAModel([java_model])

本地(運作)模型擬合喬治。

DistributedLDAModel([java_model])

分布式模型擬合的喬治。

PowerIterationClustering(* [k麥克斯特,…)

迭代聚類(圖片),一個可伸縮的圖形開發的聚類算法林和科恩.從抽象:圖片發現數據的低維嵌入規範化使用截斷電力迭代成對相似矩陣的數據. .

功能

array_to_vector(col)

將數組的列數值類型轉換成一個列pyspark.ml.linalg。DenseVector實例

vector_to_array(col [dtype])

MLlib稀疏/密度向量的列轉換成一個列的密集陣列。

向量和矩陣

向量

DenseVector(ar)

密集的向量代表一個值數組。

SparseVector(大小、* args)

一個簡單的稀疏向量類MLlib傳遞數據。

向量

工廠方法來處理向量。

矩陣(numRows numCols [, isTransposed])

DenseMatrix(numCols numRows值[…])

列為主的密度矩陣。

SparseMatrix(numCols numRows colPtrs…)

稀疏矩陣存儲在CSC格式。

矩陣

建議

肌萎縮性側索硬化症(*[、等級、麥克斯特、regParam…))

交替最小二乘(ALS)矩陣分解。

ALSModel([java_model])

模型擬合了肌萎縮性側索硬化症。

回歸

AFTSurvivalRegression(* (featuresCol,…))

加速失效時間模型(尾部)生存回歸

AFTSurvivalRegressionModel([java_model])

模型擬合的AFTSurvivalRegression

DecisionTreeRegressor(* (featuresCol,…))

決策樹為回歸學習算法。它同時支持連續和分類功能。

DecisionTreeRegressionModel([java_model])

模型擬合的DecisionTreeRegressor

GBTRegressor(* [,labelCol featuresCol…))

Gradient-Boosted樹(GBTs)為回歸學習算法。它同時支持連續和分類功能。

GBTRegressionModel([java_model])

模型擬合的GBTRegressor

GeneralizedLinearRegression(* (labelCol,…))

廣義線性回歸。

GeneralizedLinearRegressionModel([java_model])

模型擬合的GeneralizedLinearRegression

GeneralizedLinearRegressionSummary([java_obj])

廣義線性回歸結果評估數據集。

GeneralizedLinearRegressionTrainingSummary([…])

廣義線性回歸訓練的結果。

IsotonicRegression(* (featuresCol,…))

目前使用並行池侵犯相鄰的算法實現。

IsotonicRegressionModel([java_model])

模型擬合的IsotonicRegression

LinearRegression(* [,labelCol featuresCol…))

線性回歸。

LinearRegressionModel([java_model])

模型擬合的LinearRegression

LinearRegressionSummary([java_obj])

線性回歸結果評估數據集。

LinearRegressionTrainingSummary([java_obj])

線性回歸訓練的結果。

RandomForestRegressor(* (featuresCol,…))

隨機森林為回歸學習算法。它同時支持連續和分類功能。

RandomForestRegressionModel([java_model])

模型擬合的RandomForestRegressor

FMRegressor(* [,labelCol featuresCol…))

分解機器學習算法的回歸。

FMRegressionModel([java_model])

模型擬合的FMRegressor

統計數據

ChiSquareTest

進行皮爾遜的獨立測試每一個特性對標簽。

相關

計算的輸入數據集的相關矩陣向量使用指定的方法。

KolmogorovSmirnovTest

進行雙邊柯爾莫哥洛夫斯米爾諾夫(KS)測試數據從一個連續分布采樣。

MultivariateGaussian(意思是,浸)

代表一個元組(意思是,x)

史書

矢量化統計工具MLlib向量。

SummaryBuilder(jSummaryBuilder)

生成器對象提供關於一個給定的列的彙總統計。

調優

ParamGridBuilder()

構建器參數網格中使用網格搜索模型的選擇。

CrossValidator(*(估計量,…))

K-fold交叉驗證執行模型選擇隨機數據集分割到一組重疊分區折疊作為單獨的訓練和測試數據集如k = 3折,K-fold交叉驗證將生成3(培訓、測試)數據集對,每個使用培訓和1/3 2/3的數據進行測試。

CrossValidatorModel(bestModel [avgMetrics,…)

CrossValidatorModel包含最高的模型平均跨折交叉驗證指標,並使用該模型將輸入數據。

TrainValidationSplit(*(估計量,…))

驗證hyper-parameter調優。

TrainValidationSplitModel(bestModel […])

從火車模型驗證。

評價

評估者()

基類評估計算指標的預測。

BinaryClassificationEvaluator(* […])

二進製分類評估者,預計rawPrediction輸入列,列標簽和一個可選的重量。

RegressionEvaluator(* (predictionCol,…))

回歸評估者,預計預測輸入列,列標簽和一個可選的重量。

MulticlassClassificationEvaluator(* […])

多類分類的評估者,預計輸入列:預測、標簽、重量(可選)和probabilityCol logLoss(隻)。

MultilabelClassificationEvaluator(* […])

Multilabel分類評估者,預計兩個輸入列:預測和標簽。

ClusteringEvaluator(* (predictionCol,…))

聚類結果的評估者,預計兩個輸入列:預測和特性。

RankingEvaluator(* (predictionCol,…))

排名評估者,預計兩個輸入列:預測和標簽。

頻繁模式挖掘

FPGrowth(* [,minConfidence minSupport…))

一個平行FP-growth算法挖掘頻繁項集。

FPGrowthModel([java_model])

由FPGrowth模型擬合。

PrefixSpan(* (minSupport,…))

一個平行PrefixSpan算法挖掘頻繁序列模式。

圖像

ImageSchema

內部類pyspark.ml.image.ImageSchema屬性。

_ImageSchema()

內部類pyspark.ml.image.ImageSchema屬性。

公用事業公司

BaseReadWrite()

基類MLWriter MLReader。

DefaultParamsReadable

製作簡單的輔助特征參數個數類型可讀。

DefaultParamsReader(cls)

專業化的MLReader參數個數類型

DefaultParamsWritable

製作簡單的輔助特征參數個數類型可寫的。

DefaultParamsWriter(實例)

專業化的MLWriter參數個數類型

GeneralMLWriter()

實用工具類,它可以節省毫升實例在不同的格式。

HasTrainingSummary

基類模型,提供培訓總結。

可識別的()

對象與一個惟一的ID。

MLReadable

Mixin的實例提供MLReader

MLReader()

實用工具類,它可以加載毫升實例。

MLWritable

Mixin毫升實例提供MLWriter

MLWriter()

實用工具類,它可以節省毫升實例。