我需要處理一些文件,操作文件文本利用外部可執行操作stdin和stdout。
我很新的火花。我嚐試使用抽樣。管在下麵
exe_path = " /usr/local/bin/external-exe " files_rdd = spark.sparkContext.parallelize (files_list) pipe_tokenised_rdd = files_rdd.pipe (exe_path}) pipe_tokenised_rdd.collect ())
這種方法是使用抽樣。應該使用管外部代碼的方式?我需要使用抽樣。管道或我應該使用dataframe變換。尋找方法的建議。