以色列國防軍¶
-
類
pyspark.mllib.feature。
以色列國防軍
( minDocFreq:int=0 ) ¶ -
逆文檔頻率(IDF)。
使用標準的製定:idf =日誌((m + 1) / (d (t) + 1)),在那裏米文檔和總數嗎d (t)包含詞的文檔的數量嗎t。
這個實現支持過濾條件不出現在最小數量的文檔(控製的變量minDocFreq)。至少不在的條款minDocFreq文件,發現IDF 0,導致TF-IDFs 0。
- 參數
-
- minDocFreq int
-
最小的文件中應該會出現一個詞的過濾
例子
> > >n=4> > >頻率=(向量。稀疏的(n,(1,3),(1.0,2.0)),…向量。密集的([0.0,1.0,2.0,3.0]),…向量。稀疏的(n,(1),(1.0)))> > >數據=sc。並行化(頻率)> > >以色列國防軍=以色列國防軍()> > >模型=以色列國防軍。適合(數據)> > >tfidf=模型。變換(數據)> > >為r在tfidf。收集():rSparseVector (4, {1: 0.0, 3: 0.5754})DenseVector ([0.0, 0.0, 1.3863, 0.863]){1:0.0}SparseVector (4)> > >模型。變換(向量。密集的([0.0,1.0,2.0,3.0)))DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。變換([0.0,1.0,2.0,3.0])DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型。變換(向量。稀疏的(n,(1,3),(1.0,2.0)))SparseVector (4, {1: 0.0, 3: 0.5754})
方法
適合
(數據集)計算逆文檔頻率。
方法的文檔
-
適合
( 數據集:pyspark.rdd.RDD(VectorLike] )→pyspark.mllib.feature.IDFModel ¶ -
計算逆文檔頻率。
- 參數
-
-
數據集
pyspark.RDD
-
術語的抽樣頻率向量
-
數據集