pyspark.RDD.saveAsTextFile¶
-
抽樣。
saveAsTextFile
( 路徑:str,compressionCodecClass:可選(str]=沒有一個 )→沒有¶ -
保存這個抽樣作為一個文本文件,使用元素的字符串表示。
- 參數
-
- 路徑 str
-
文本文件路徑
- compressionCodecClass str,可選
-
壓縮編解碼器類的完全限定類名即“org.apache.hadoop.io.compress.GzipCodec”(默認情況下沒有一個)
例子
> > >從tempfile進口NamedTemporaryFile> > >tempFile=NamedTemporaryFile(刪除=真正的)> > >tempFile。關閉()> > >sc。並行化(範圍(10))。saveAsTextFile(tempFile。的名字)> > >從fileinput進口輸入> > >從一團進口一團> > >”。加入(排序(輸入(一團(tempFile。的名字+“/部分- 0000 *”))))“0 \ n1、n2 \ n3 \陶瓷\它們\ n6 \ n7 \ n8 \ n9 \ n”
空行是容忍在保存文本文件。
> > >從tempfile進口NamedTemporaryFile> > >tempFile2=NamedTemporaryFile(刪除=真正的)> > >tempFile2。關閉()> > >sc。並行化([”,“foo”,”,“酒吧”,”])。saveAsTextFile(tempFile2。的名字)> > >”。加入(排序(輸入(一團(tempFile2。的名字+“/部分- 0000 *”))))' \ n \ n \ nbar \ nfoo \ n”
使用compressionCodecClass
> > >從tempfile進口NamedTemporaryFile> > >tempFile3=NamedTemporaryFile(刪除=真正的)> > >tempFile3。關閉()> > >編解碼器=“org.apache.hadoop.io.compress.GzipCodec”> > >sc。並行化([“foo”,“酒吧”])。saveAsTextFile(tempFile3。的名字,編解碼器)> > >從fileinput進口輸入,hook_compressed> > >結果=排序(輸入(一團(tempFile3。的名字+“/ * . gz”部分),openhook=hook_compressed))> > >”。加入([r。解碼(“utf - 8”)如果isinstance(r,字節)其他的r為r在結果])“酒吧\ nfoo \ n”