取消
顯示的結果
而不是尋找
你的意思是:

優化方法在使用外部腳本/可執行的處理數據

mick042
新的貢獻者三世

我需要處理一些文件,操作文件文本利用外部可執行操作stdin和stdout。

我很新的火花。我嚐試使用抽樣。管在下麵

exe_path = " /usr/local/bin/external-exe " files_rdd = spark.sparkContext.parallelize (files_list) pipe_tokenised_rdd = files_rdd.pipe (exe_path}) pipe_tokenised_rdd.collect ())

這種方法是使用抽樣。應該使用管外部代碼的方式?我需要使用抽樣。管道或我應該使用dataframe變換。尋找方法的建議。

1回複1

User16753725469
因素二世

嗨@Michael列儂請詳細用例在外部應用程序在做什麼exe_path

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map