pyspark.RDD.saveAsHadoopFile

抽樣。 saveAsHadoopFile ( 路徑:str,outputFormatClass:str,keyClass:可選(str]=沒有一個,valueClass:可選(str]=沒有一個,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,相依:可選(Dict(str,str]]=沒有一個,compressionCodecClass:可選(str]=沒有一個 )→沒有

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。鍵和值類型推斷如果不指定。鍵和值被轉換為輸出使用用戶指定的轉換器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依應用基礎上配置與Hadoop的SparkContext抽樣合並創建一個Hadoop MapReduce任務配置保存數據。

參數
路徑 str

Hadoop文件路徑

outputFormatClass str

完全限定類名的Hadoop OutputFormat(例如“org.apache.hadoop.mapred.SequenceFileOutputFormat”)

keyClass str,可選

關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io。IntWritable”,默認情況下沒有一個)

valueClass str,可選

價值寫的類的完全限定類名(例如“org.apache.hadoop.io。文本”,沒有一個默認情況下)

keyConverter str,可選

完全限定類名關鍵的轉換器(默認情況下沒有一個)

valueConverter str,可選

默認值轉換器的完全限定類名(沒有)

相依 東西,可選

(默認情況下沒有一個)

compressionCodecClass str

壓縮編解碼器類的完全限定類名即“org.apache.hadoop.io.compress.GzipCodec”(默認情況下沒有一個)