PrefixSpan¶
-
類
pyspark.ml.fpm。
PrefixSpan
( *,minSupport:浮動=0.1,maxPatternLength:int=10,maxLocalProjDBSize:int=32000000,sequenceCol:str=“序列” ) ¶ -
一個平行PrefixSpan算法挖掘頻繁序列模式。PrefixSpan算法描述的j .貝聿銘et al ., PrefixSpan:挖掘序列模式有效地通過前綴映射模式增長(見在這裏)。這個類還沒有一個估計量/變壓器,使用
findFrequentSequentialPatterns ()
方法運行PrefixSpan算法。筆記
例子
> > >從pyspark.ml.fpm進口PrefixSpan> > >從pyspark.sql進口行> > >df=sc。並行化([行(序列=[[1,2),(3]]),…行(序列=[[1),(3,2),(1,2]]),…行(序列=[[1,2),(5]]),…行(序列=[[6]])))。toDF()> > >prefixSpan=PrefixSpan()> > >prefixSpan。getMaxLocalProjDBSize()32000000> > >prefixSpan。getSequenceCol()“序列”> > >prefixSpan。setMinSupport(0.5)PrefixSpan……> > >prefixSpan。setMaxPatternLength(5)PrefixSpan……> > >prefixSpan。findFrequentSequentialPatterns(df)。排序(“序列”)。顯示(截斷=假)+ - - - - - - - - - - - + - - - +| |序列頻率|+ - - - - - - - - - - - + - - - +[[1]]| | 3 || [[1],[3]]| 2 |[[2]]| | 3 || [[2,1]]| 3 |[[3]]| | 2 |+ - - - - - - - - - - - + - - - +…
方法
清晰的
(參數)清除參數映射的參數是否被顯式地設置。
複製
((額外的))創建這個實例的副本具有相同uid和一些額外的參數。
explainParam
(參數)解釋一個參數並返回它的名字,醫生,和可選的默認值,用戶提供的字符串值。
返回文檔的所有參數選擇默認值和用戶提供的值。
extractParamMap
((額外的))提取嵌入默認參數值和用戶提供的值,然後合並他們額外的值從輸入平麵參數映射,後者使用價值如果存在衝突,即。排序:默認參數值< <額外的用戶提供的值。
發現頻繁序列模式的完整的輸入序列項集。
得到的價值maxLocalProjDBSize或其默認值。
得到的價值maxPatternLength或其默認值。
得到的價值minSupport或其默認值。
getOrDefault
(參數)得到參數的值在用戶提供的參數映射或其默認值。
getParam
(paramName)通過它的名稱參數。
得到的價值sequenceCol或其默認值。
hasDefault
(參數)檢查是否一個參數有默認值。
hasParam
(paramName)測試這個實例包含一個參數是否與給定名稱(字符串)。
isDefined
(參數)檢查參數是否由用戶或顯式地設置一個默認值。
收取
(參數)檢查參數是否由用戶顯式地設置。
集
(參數值)設置一個參數嵌入參數映射。
設置的值
maxLocalProjDBSize
。設置的值
maxPatternLength
。設置的值
minSupport
。setparam
(自我\ * (minSupport,…))設置的值
sequenceCol
。屬性
返回所有參數命令的名字。
方法的文檔
-
清晰的
( 參數:pyspark.ml.param.Param )→沒有¶ -
清除參數映射的參數是否被顯式地設置。
-
複製
( 額外的:可選(ParamMap]=沒有一個 )→摩根大通¶ -
創建這個實例的副本具有相同uid和一些額外的參數。這個實現第一次調用參數。複製and then make a copy of the companion Java pipeline component with extra params. So both the Python wrapper and the Java pipeline component get copied.
- 參數
-
- 額外的 東西,可選
-
額外參數複製到新實例
- 返回
-
-
JavaParams
-
這個實例的副本
-
-
explainParam
( 參數:聯盟(str,pyspark.ml.param.Param] )→str¶ -
解釋一個參數並返回它的名字,醫生,和可選的默認值,用戶提供的字符串值。
-
explainParams
( )→str¶ -
返回文檔的所有參數選擇默認值和用戶提供的值。
-
extractParamMap
( 額外的:可選(ParamMap]=沒有一個 )→ParamMap¶ -
提取嵌入默認參數值和用戶提供的值,然後合並他們額外的值從輸入平麵參數映射,後者使用價值如果存在衝突,即。排序:默認參數值< <額外的用戶提供的值。
- 參數
-
- 額外的 東西,可選
-
額外的參數值
- 返回
-
- dict
-
合並後的參數映射
-
findFrequentSequentialPatterns
( 數據集:pyspark.sql.dataframe.DataFrame )→pyspark.sql.dataframe.DataFrame¶ -
發現頻繁序列模式的完整的輸入序列項集。
- 參數
-
-
數據集
pyspark.sql.DataFrame
-
一個是包含一個序列dataframe列ArrayType (ArrayType (T))類型T的項目類型的輸入數據集。
-
數據集
- 返回
-
-
pyspark.sql.DataFrame
-
一個DataFrame包含的列順序和相應的頻率。它的模式將會是:
序列:ArrayType (ArrayType (T))項目類型(T)
頻率:長
-
-
getMaxLocalProjDBSize
( )→int¶ -
得到的價值maxLocalProjDBSize或其默認值。
-
getMaxPatternLength
( )→int¶ -
得到的價值maxPatternLength或其默認值。
-
getMinSupport
( )→浮動¶ -
得到的價值minSupport或其默認值。
-
getOrDefault
( 參數:聯盟(str,pyspark.ml.param.Param(T]] )→聯盟(任何,T] ¶ -
得到參數的值在用戶提供的參數映射或其默認值。如果沒有設置提出了一個錯誤。
-
getParam
( paramName:str )→pyspark.ml.param.Param ¶ -
通過它的名稱參數。
-
getSequenceCol
( )→str¶ -
得到的價值sequenceCol或其默認值。
-
hasDefault
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查是否一個參數有默認值。
-
hasParam
( paramName:str )→bool¶ -
測試這個實例包含一個參數是否與給定名稱(字符串)。
-
isDefined
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查參數是否由用戶或顯式地設置一個默認值。
-
收取
( 參數:聯盟(str,pyspark.ml.param.Param(任何]] )→bool¶ -
檢查參數是否由用戶顯式地設置。
-
集
( 參數:pyspark.ml.param.Param,價值:任何 )→沒有¶ -
設置一個參數嵌入參數映射。
-
setMaxLocalProjDBSize
( 價值:int )→pyspark.ml.fpm.PrefixSpan ¶ -
設置的值
maxLocalProjDBSize
。
-
setMaxPatternLength
( 價值:int )→pyspark.ml.fpm.PrefixSpan ¶ -
設置的值
maxPatternLength
。
-
setMinSupport
( 價值:浮動 )→pyspark.ml.fpm.PrefixSpan ¶ -
設置的值
minSupport
。
-
setparam
( 自我,\ *,minSupport = 0.1,maxPatternLength = 10,maxLocalProjDBSize = 32000000,sequenceCol = "序列" ) ¶
-
setSequenceCol
( 價值:str )→pyspark.ml.fpm.PrefixSpan ¶ -
設置的值
sequenceCol
。
屬性的文檔
-
maxLocalProjDBSize
:pyspark.ml.param.Param (int) =參數(父母=‘定義’,name = ' maxLocalProjDBSize ', doc = '的最大條目數(包括分隔符用於內部存儲格式)允許在投影數據庫在本地處理。如果一個投影數據庫超過這個尺寸,另一個迭代運行分布式前綴的增長。必須> 0。”) ¶
-
maxPatternLength
:pyspark.ml.param.Param (int) =參數(父母=‘定義’,name = ' maxPatternLength ', doc = '的最大長度序列模式。必須> 0。”) ¶
-
minSupport
:pyspark.ml.param.Param(浮動) =參數(父母=‘定義’,name = ' minSupport ', doc = '最小支撐位的順序模式。出現的順序模式(minSupport * size-of-the-dataset)多次將輸出。必須> = 0”。) ¶
-
參數個數
¶ -
返回所有參數命令的名字。默認實現使用
dir ()
所有的屬性類型參數
。
-
sequenceCol
:pyspark.ml.param.Param (str) =參數(父母=‘定義’,name = ' sequenceCol ', doc =“序列列數據集的名稱,行與null列被忽略。”) ¶
-