以色列國防軍

pyspark.mllib.feature。 以色列國防軍 ( minDocFreq:int=0 )

逆文檔頻率(IDF)。

使用標準的製定:idf =日誌((m + 1) / (d (t) + 1)),在那裏文檔和總數嗎d (t)包含詞的文檔的數量嗎t

這個實現支持過濾條件不出現在最小數量的文檔(控製的變量minDocFreq)。至少不在的條款minDocFreq文件,發現IDF 0,導致TF-IDFs 0。

參數
minDocFreq int

最小的文件中應該會出現一個詞的過濾

例子

> > >n=4> > >頻率=(向量稀疏的(n,(1,3),(1.0,2.0)),向量密集的([0.0,1.0,2.0,3.0]),向量稀疏的(n,(1),(1.0)))> > >數據=sc並行化(頻率)> > >以色列國防軍=以色列國防軍()> > >模型=以色列國防軍適合(數據)> > >tfidf=模型變換(數據)> > >rtfidf收集():rSparseVector (4, {1: 0.0, 3: 0.5754})DenseVector ([0.0, 0.0, 1.3863, 0.863]){1:0.0}SparseVector (4)> > >模型變換(向量密集的([0.0,1.0,2.0,3.0)))DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型變換([0.0,1.0,2.0,3.0])DenseVector ([0.0, 0.0, 1.3863, 0.863])> > >模型變換(向量稀疏的(n,(1,3),(1.0,2.0)))SparseVector (4, {1: 0.0, 3: 0.5754})

方法

適合(數據集)

計算逆文檔頻率。

方法的文檔

適合 ( 數據集:pyspark.rdd.RDD(VectorLike] )pyspark.mllib.feature.IDFModel

計算逆文檔頻率。

參數
數據集 pyspark.RDD

術語的抽樣頻率向量