MLlib (DataFrame-based)¶
管道的api¶
|
抽象類的變壓器變換一個數據集到另一個。 |
抽象類為《變形金剛》,一個輸入欄,應用轉換和輸出結果作為一個新列。 |
|
|
抽象類的估計數據模型。 |
|
抽象類所擬合的模型估計。 |
|
預測估計任務(回歸和分類)。 |
預測模型的任務(回歸和分類)。 |
|
|
一個簡單的管道,它充當一個估計量。 |
|
代表一個編譯管道變形金剛和擬合模型。 |
參數¶
|
與獨立參數文檔。 |
|
組件的參數。 |
工廠方法常見的類型轉換函數Param.typeConverter。 |
功能¶
|
Binarize一列連續給定的閾值特性。 |
|
激光衝徊化類歐氏距離度量。 |
|
模型擬合的 |
|
一列連續特性映射到列桶的特性。 |
|
卡方特征選擇,選擇分類特征用於預測分類標簽。 |
|
模型擬合的 |
|
從文檔集合中提取一個詞彙表,生成一個 |
|
模型擬合的 |
|
變壓器的特性,以一個真正的一維離散餘弦變換向量。 |
|
產品(即輸出阿達瑪。element-wise產品)提供的每個輸入向量與向量“重量”。 |
|
功能散列項目一組分類或指定的數值特征的特征向量維度(通常遠遠小於原始特征空間的)。 |
|
一係列術語映射到他們的詞頻率使用哈希的訣竅。 |
|
計算逆文檔頻率(IDF)給定文檔的集合。 |
|
模型擬合的 |
|
歸責估計完成缺失值,使用均值、中值或模式的缺失值的列。 |
|
模型擬合的 |
|
一個 |
|
實現了功能交互變換。 |
|
重新調節每個特性單獨範圍[1]通過最大的最大絕對值除以每個特性。 |
|
模型擬合的 |
|
激光衝徊化類Jaccard距離。 |
|
模型由 |
|
重新調節每個特性單獨一個共同的範圍(最小,最大)線性使用列的彙總統計,也稱為min-max標準化或重新調節。 |
|
模型擬合的 |
|
變壓器的特性,將輸入的字符串數組轉換成一個字格數組。 |
|
標準化一個向量單位使用給定p-norm規範。 |
|
一個地圖的一個炎熱的編碼器類別索引的列的列二進製向量,每行最多一個一個值,指示輸入類別索引。 |
|
模型擬合的 |
|
PCA火車模型項目的低維空間向量 |
|
模型擬合的 |
|
執行功能在一個多項式空間的擴張。 |
|
|
|
RobustScaler刪除中間值和尺度根據分位數的數據範圍。 |
|
模型擬合的 |
|
一個基於正則表達式的編譯器,提取標記通過使用提供的正則表達式模式(在Java方言)將文本(默認)或多次匹配正則表達式(如果差距是假的)。 |
|
實現所需的變換擬合數據集對R模型公式。 |
|
模型擬合的 |
|
實現定義的SQL語句的轉換。 |
|
標準化特性通過刪除單元方差均值和擴展使用列彙總統計的樣本訓練集。 |
|
模型擬合的 |
|
變壓器的特性,過濾掉阻止語言輸入。 |
|
一個標簽索引器映射一個字符串列的索引標簽的ML列標簽。 |
|
模型擬合的 |
|
一個編譯器,將輸入字符串轉換為小寫,然後分裂的空白。 |
|
功能選擇器對標簽。基於單變量統計測試 |
|
|
|
功能選擇器,刪除所有低溫度差的特性。 |
|
|
|
變壓器的特性,合並多個列成一個向量列。 |
|
類索引分類特征列的數據集向量。 |
|
模型擬合的 |
|
變壓器的特性,將大小信息添加到元數據向量的列。 |
|
這門課需要一個特征向量和輸出向量的一個新特性子數組的原始特性。 |
|
Word2Vec火車的模型矢量地圖(字符串),即 |
|
模型擬合的 |
分類¶
|
這種二元分類器使用OWLQN優化器優化鉸鏈損失。 |
|
由LinearSVC模型擬合。 |
|
抽象LinearSVC結果對於一個給定的模型。 |
|
抽象LinearSVC培訓結果。 |
|
邏輯回歸。 |
|
由LogisticRegression模型擬合。 |
|
對於一個給定的模型抽象為邏輯回歸結果。 |
|
抽象多項邏輯回歸訓練的結果。 |
|
二元邏輯回歸結果對於一個給定的模型。 |
二元邏輯回歸訓練結果對於一個給定的模型。 |
|
|
決策樹學習算法的分類。它同時支持二進製和多類標簽,以及連續和分類功能。 |
|
由DecisionTreeClassifier模型擬合。 |
|
Gradient-Boosted樹(GBTs)學習算法的分類。它支持二進製標簽,以及連續和分類功能。 |
|
由GBTClassifier模型擬合。 |
|
隨機森林學習算法的分類。它同時支持二進製和多類標簽,以及連續和分類功能。 |
|
由RandomForestClassifier模型擬合。 |
|
抽象RandomForestClassification結果對於一個給定的模型。 |
抽象RandomForestClassificationTraining培訓結果。 |
|
BinaryRandomForestClassification結果對於一個給定的模型。 |
|
BinaryRandomForestClassification培訓結果對於一個給定的模型。 |
|
|
樸素貝葉斯分類器。 |
|
由NaiveBayes模型擬合。 |
分類器訓練基於多層感知器。 |
|
由MultilayerPerceptronClassifier模型擬合。 |
|
抽象MultilayerPerceptronClassifier結果對於一個給定的模型。 |
|
抽象MultilayerPerceptronClassifier培訓結果。 |
|
|
減少多級分類二進製分類。 |
|
由OneVsRest模型擬合。 |
|
分解機器學習算法的分類。 |
|
模型擬合的 |
|
抽象FMClassifier結果對於一個給定的模型。 |
|
抽象FMClassifier培訓結果。 |
聚類¶
|
平分的k - means算法在紙上“比較文檔聚類技術”施泰因巴赫通過,Karypis,庫馬爾,修改以適應火花。 |
|
由BisectingKMeans模型擬合。 |
|
平分KMeans聚類結果對於一個給定的模型。 |
|
與這樣的k - means + + k - means聚類初始化模式(k - means | | Bahmani等算法)。 |
|
由KMeans模型擬合。 |
|
KMeans的總結。 |
|
GaussianMixture集群。 |
|
由GaussianMixture模型擬合。 |
|
高斯混合聚類結果對於一個給定的模型。 |
|
潛在狄利克雷分配(LDA),主題為文本文檔設計模型。 |
|
潛在狄利克雷分配(LDA)模型。 |
|
本地(運作)模型擬合 |
|
分布式模型擬合的 |
|
迭代聚類(圖片),一個可伸縮的圖形開發的聚類算法林和科恩.從抽象:圖片發現數據的低維嵌入規範化使用截斷電力迭代成對相似矩陣的數據. . |
功能¶
|
將數組的列數值類型轉換成一個列pyspark.ml.linalg。DenseVector實例 |
|
MLlib稀疏/密度向量的列轉換成一個列的密集陣列。 |
向量和矩陣¶
|
密集的向量代表一個值數組。 |
|
一個簡單的稀疏向量類MLlib傳遞數據。 |
工廠方法來處理向量。 |
|
|
|
|
列為主的密度矩陣。 |
|
稀疏矩陣存儲在CSC格式。 |
建議¶
|
交替最小二乘(ALS)矩陣分解。 |
|
模型擬合了肌萎縮性側索硬化症。 |
回歸¶
統計數據¶
進行皮爾遜的獨立測試每一個特性對標簽。 |
|
計算的輸入數據集的相關矩陣向量使用指定的方法。 |
|
進行雙邊柯爾莫哥洛夫斯米爾諾夫(KS)測試數據從一個連續分布采樣。 |
|
|
代表一個元組(意思是,x) |
矢量化統計工具MLlib向量。 |
|
|
生成器對象提供關於一個給定的列的彙總統計。 |
調優¶
構建器參數網格中使用網格搜索模型的選擇。 |
|
|
K-fold交叉驗證執行模型選擇隨機數據集分割到一組重疊分區折疊作為單獨的訓練和測試數據集如k = 3折,K-fold交叉驗證將生成3(培訓、測試)數據集對,每個使用培訓和1/3 2/3的數據進行測試。 |
|
CrossValidatorModel包含最高的模型平均跨折交叉驗證指標,並使用該模型將輸入數據。 |
|
驗證hyper-parameter調優。 |
|
從火車模型驗證。 |
評價¶
|
基類評估計算指標的預測。 |
二進製分類評估者,預計rawPrediction輸入列,列標簽和一個可選的重量。 |
|
|
回歸評估者,預計預測輸入列,列標簽和一個可選的重量。 |
多類分類的評估者,預計輸入列:預測、標簽、重量(可選)和probabilityCol logLoss(隻)。 |
|
Multilabel分類評估者,預計兩個輸入列:預測和標簽。 |
|
|
聚類結果的評估者,預計兩個輸入列:預測和特性。 |
|
排名評估者,預計兩個輸入列:預測和標簽。 |
頻繁模式挖掘¶
|
一個平行FP-growth算法挖掘頻繁項集。 |
|
由FPGrowth模型擬合。 |
|
一個平行PrefixSpan算法挖掘頻繁序列模式。 |
圖像¶
內部類pyspark.ml.image.ImageSchema屬性。 |
|
內部類pyspark.ml.image.ImageSchema屬性。 |
公用事業公司¶
基類MLWriter MLReader。 |
|
製作簡單的輔助特征 |
|
|
專業化的 |
製作簡單的輔助特征 |
|
專業化的 |
|
實用工具類,它可以節省毫升實例在不同的格式。 |
|
基類模型,提供培訓總結。 |
|
|
對象與一個惟一的ID。 |
Mixin的實例提供 |
|
|
實用工具類,它可以加載毫升實例。 |
Mixin毫升實例提供 |
|
|
實用工具類,它可以節省毫升實例。 |