pyspark.RDD.saveAsHadoopFile¶
-
抽樣。
saveAsHadoopFile
( 路徑:str,outputFormatClass:str,keyClass:可選(str]=沒有一個,valueClass:可選(str]=沒有一個,keyConverter:可選(str]=沒有一個,valueConverter:可選(str]=沒有一個,相依:可選(Dict(str,str]]=沒有一個,compressionCodecClass:可選(str]=沒有一個 )→沒有¶ -
輸出一個Python抽樣的鍵-值對的形式
抽樣[(K,V))
)任何Hadoop文件係統,使用舊的Hadoop OutputFormat API (mapred包)。鍵和值類型推斷如果不指定。鍵和值被轉換為輸出使用用戶指定的轉換器或“org.apache.spark.api.python.JavaToWritableConverter”。的相依應用基礎上配置與Hadoop的SparkContext抽樣合並創建一個Hadoop MapReduce任務配置保存數據。- 參數
-
- 路徑 str
-
Hadoop文件路徑
- outputFormatClass str
-
完全限定類名的Hadoop OutputFormat(例如“org.apache.hadoop.mapred.SequenceFileOutputFormat”)
- keyClass str,可選
-
關鍵可寫的類的完全限定類名(例如“org.apache.hadoop.io。IntWritable”,默認情況下沒有一個)
- valueClass str,可選
-
價值寫的類的完全限定類名(例如“org.apache.hadoop.io。文本”,沒有一個默認情況下)
- keyConverter str,可選
-
完全限定類名關鍵的轉換器(默認情況下沒有一個)
- valueConverter str,可選
-
默認值轉換器的完全限定類名(沒有)
- 相依 東西,可選
-
(默認情況下沒有一個)
- compressionCodecClass str
-
壓縮編解碼器類的完全限定類名即“org.apache.hadoop.io.compress.GzipCodec”(默認情況下沒有一個)