pyspark.RDD.saveAsHadoopFile¶

抽樣。 saveAsHadoopFile ( 路徑:str,outputFormatClass:str,keyClass:可選(str]=沒有一個,valueClass:可選(str]=沒有一個,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,相依:可選(Dict(str,str]]=沒有一個,compressionCodecClass:可選(str]=沒有一個 )→沒有¶

輸出一個Python抽樣的鍵-值對的形式抽樣[(K,V)))任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。鍵和值類型推斷如果不指定。鍵和值被轉換為輸出使用用戶指定的轉換器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依應用基礎上配置與Hadoop的SparkContext抽樣合並創建一個Hadoop MapReduce任務配置保存數據。

參數

路徑 str: Hadoop文件路徑
outputFormatClass str: 完全限定類名的Hadoop OutputFormat(例如“org.apache.hadoop.mapred.SequenceFileOutputFormat”)
keyClass str,可選: 關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io。IntWritable”,默認情況下沒有一個)
valueClass str,可選: 價值寫的類的完全限定類名(例如“org.apache.hadoop.io。文本”,沒有一個默認情況下)
keyConverter str,可選: 完全限定類名關鍵的轉換器(默認情況下沒有一個)
valueConverter str,可選: 默認值轉換器的完全限定類名(沒有)
相依東西,可選: (默認情況下沒有一個)
compressionCodecClass str: 壓縮編解碼器類的完全限定類名即“org.apache.hadoop.io.compress.GzipCodec”(默認情況下沒有一個)

以前的

pyspark.RDD.saveAsHadoopDataset

下一個

pyspark.RDD.saveAsNewAPIHadoopDataset